语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

本文由 xujiajin2010-03-20 发表於 "语料库语言学入门" 讨论区

  1. xujiajin

    xujiajin 管理员 Staff Member

    语料库术语汇编:欢迎增补、批评指正
    【Updated on March 28, 2010】左边为英文,右边的汉语凡以分号(;)隔开的表示该术语有不同含义,以顿号(、)隔开的表示该术语有两种以上可接受的汉语译法。


    我们从一开始就没打算制定什么标准,制定标准去规范别人是一件很可笑的事情。

    我们只是提供了文献中的常见汉译,做了一点文献整理工作而已。没有(合适)译法的,我们尝试提供了汉译。如帖子的标题所言我们“欢迎增补、批评指正”。

    术语的使用,一要合理,即切合原意;二要尊重约定俗成。

    我们提供的中文译法,从左到右,第一个是相对来说用得较多的,或者是我们认为较合理的。


    Aboutness 所言之事
    Absolute frequency 绝对频数
    Alignment (of parallel texts) (平行或对应)语料的对齐
    Alphanumeric 字母数字类的
    Annotate 标注(动词)
    Annotation 标注(名词)
    Annotation scheme 标注方案
    ANSI/American National Standards Institute 美国国家标准学会
    ASCII/American Standard Code for Information Exchange 美国信息交换标准码
    Associate (of keywords) (主题词的)联想词
    AWL/Academic word list 学术词表
    Balanced corpus 平衡语料库
    Base list 底表、基础词表
    Bigram 二元组、二元序列、二元结构
    Bi-hapax 两次词
    Bilingual corpus 双语语料库
    CA/Contrastive Analysis 对比分析
    Case-sensitive 大小写敏感、区分大小写
    Chi-square (χ2) test 卡方检验
    Chunk 词块
    CIA/Contrastive Interlanguage Analysis 中介语对比分析
    CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统
    Clean text policy 干净文本原则
    Cluster 词簇、词丛
    Colligation 类联接、类连接、类联结
    Collocate n./v. 搭配词;搭配
    Collocability 搭配强度、搭配力
    Collocation 搭配、词语搭配
    Collocational strength 搭配强度
    Collocational framework/frame 搭配框架
    Comparable corpora 类比语料库、可比语料库
    ConcGram 同现词列、框合结构
    Concordance (line) 索引(行)
    Concordance plot (索引)词图
    Concordancer 索引工具
    Concordancing 索引生成、索引分析
    Context 语境、上下文
    Context word 语境词
    Contingency table 连列表、联列表、列连表、列联表
    Co-occurrence/Co-occurring 共现
    Corpora 语料库(复数)
    Corpus Linguistics 语料库语言学
    Corpus 语料库
    Corpus-based 基于语料库的
    Corpus-driven 语料库驱动的
    Corpus-informed 语料库指导的、参考了语料库的
    Co-select/Co-selection/Co-selectiveness 共选(机制)
    Co-text 共文
    DDL/Data Driven Learning 数据驱动学习
    Diachronic corpus 历时语料库
    Discourse 话语、语篇
    Discourse prosody 话语韵律
    Documentation 备检文件、文检报告
    EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格
    Empirical Linguistics 实证语言学
    Empiricism 经验主义
    Encoding 字符编码
    Error-tagging 错误标注、错误赋码
    Extended unit of meaning 扩展意义单位
    File-based search/concordancing 批量检索
    Formulaic sequence 程式化序列
    Frequency 频数、频率
    General (purpose) corpus 通用语料库
    Granularity 颗粒度
    Hapax legomenon/hapax 一次词
    Header/Text head 文本头、头标、头文件
    HMM/Hidden Markov Model 隐马尔科夫模型
    Idiom Principle 习语原则
    Index/Indexing (建)索引
    In-line annotation 文内标注、行内标注
    Key keyword 关键主题词
    Keyness 主题性、关键性
    Keyword 主题词
    KWIC/Key Word in Context 语境中的关键词、语境共现(方式)
    Learner corpus 学习者语料库
    Lemma 词目、原形词、词元
    Lemma list 词形还原对应表
    Lemmata 词目、原形词、词元(复数)
    Lemmatization 词形还原、词元化
    Lemmatizer 词形还原(词元化)工具
    Lexical bundle 词束
    Lexical density 词汇密度
    Lexical item 词项、词语项目
    Lexical priming 词汇触发理论
    Lexical richness 词汇丰富度
    Lexico-grammar/Lexical grammar 词汇语法
    Lexis 词语、词项
    LL/Log likelihood (ratio) 对数似然比、对数似然率
    Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库
    Machine-readable 机读的
    Markup 标记、置标
    MDA/Multi-dimensional approach 多维度分析法
    Metadata 元信息
    Meta-metadata 元元信息
    MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法
    Mini-text 微型文本
    Misuse 误用
    Monitor corpus (动态)监察语料库
    Monolingual corpus 单语语料库
    Multilingual corpus 多语语料库
    Multimodal corpus 多模态语料库
    MWU/Multiword unit 多词单位
    MWE/Multiword expression 多词单位
    MI/Mutual information 互信息、互现信息
    N-gram N元组、N元序列、N元结构、N元词、多词序列
    NLP/Natural Language Processing 自然语言处理
    Node 节点(词)
    Normalization 标准化
    Normalized frequency 标准化频率、标称频率、归一频率
    Observed corpus 观察语料库
    Ontology 知识本体、本体
    Open Choice Principle 开放选择原则
    Overuse 超用、过多使用、使用过度、过度使用
    Paradigmatic 纵聚合(关系)的
    Parallel corpus 平行语料库、对应语料库
    Parole linguistics 言语语言学
    Parsed corpus 句法标注的语料库
    Parser 句法分析器
    Parsing 句法分析
    Pattern/patterning 型式
    Pattern grammar 型式语法
    Pedagogic corpus 教学语料库
    Phraseology 短语、短语学
    POSgram 赋码序列、码串
    POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码
    POS tagger 词性赋码器、词性赋码工具
    Prefab 预制语块
    Probabilistic (基于)概率的、概率性的、盖然的
    Probability 概率
    Rationalism 理性主义
    Raw text/Raw corpus 生文本(语料)
    Reference corpus 参照语料库
    Regex/RE/RegExp/Regular Expressions 正则表达式
    Register variation 语域变异
    Relative frequency 相对频率
    Representative/Representativeness 代表性(的)
    Rule-based 基于规则的
    Sample n./v. 样本;取样、采样、抽样
    Sampling 取样、采样、抽样
    Search term 检索项
    Search word 检索词
    Segmentation 切分、分词
    Semantic preference 语义倾向
    Semantic prosody 语义韵
    SGML/Standard Generalized Markup Language 标准通用标记语言
    Skipgram 跨词序列、跨词结构
    Span 跨距
    Special purpose corpus 专用语料库、专门用途语料库、专题语料库
    Specialized corpus 专用语料库
    Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比
    Stand-off annotation 分离式标注
    Stop list 停用词表、过滤词表
    Stop word 停用词、过滤词
    Synchronic corpus 共时语料库
    Syntagmatic 横组合(关系)的
    Tag 标记、码、标注码
    Tagger 赋码器、赋码工具、标注工具
    Tagging 赋码、标注、附码
    Tag sequence 赋码序列、码串
    Tagset 赋码集、码集
    Text 文本
    TEI/Text Encoding Initiative 文本编码计划
    The Lexical Approach 词汇中心教学法
    The Lexical Syllabus 词汇大纲
    Token 形符、词次
    Token definition 形符界定、单词界定
    Tokenization 分词
    Tokenizer 分词工具
    Transcription 转写
    Translational corpus 翻译语料库
    Treebank 树库
    Trigram 三元组、三元序列、三元结构
    T-score T值
    Type 类符、词型
    TTR/Type-token ratio 类符/形符比、类/形比、型次比
    Underuse 少用、使用不足
    Unicode 通用码
    Unit of meaning 意义单位
    WaC/Web as Corpus 网络语料库
    Wildcard 通配符
    Word definition 单词界定
    Word form 词形
    Word family 词族
    Word list 词表
    XML/EXtensible Markup Language 可扩展标记语言
    Zipf's Law 齐夫定律
    Z-score Z值
     

    附件文件:

  2. 回复: 语料库术语汇编:欢迎增补、批评指正

    哇,太太感谢许博士提供这么好的资料!!
     
  3. ivysweet

    ivysweet 初级会员

    回复: 语料库术语汇编:欢迎增补、批评指正

    Thank you, Dr. Xu! :)
     
  4. 回复: 语料库术语汇编:欢迎增补、批评指正

    CIA/ contrastive interlanguage analysis 中介语对比分析
    plot 词图
     
  5. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正


    谢谢补充,这两个上面已列。
    plot算在concordance plot里,单独说plot词义不详,因此以词组形式出现。
     
  6. 戴光荣

    戴光荣 普通会员

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    Alignment (of parallel texts) (平行或对应)语料的对齐

    parallel texts 平行或对应语料?
    很容易产生歧义
    可否直接译为

    平行语料?
     
  7. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    谢谢建议。

    我们给出汉语翻译时,尽可能考虑到国内现有翻译。有业内专门从事翻译、双语语料的专家不是特别主张用“平行语料”的概念,主张用“对应语料”的概念。我们取了一个折中的说法。
     
  8. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正

    先生不感谢啊?
     
  9. 回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    谢谢
     
  10. 回复: 语料库术语汇编:欢迎增补、批评指正

    UTF
    这个收录吗
     
  11. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    谢谢你的补充。

    是否收录,其界限很难定。我们的大致原则是与语料库的相关性高低。UTF似乎有点远。当然这个见仁见智。
     
  12. 回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    我也是在拷贝文件的时候,突然注意到了这个编码格式文件。很多问题还得请教许博士。
     
  13. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    Glossary updated on March 28, 2010.
     
  14. 回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    补充一个:
    stemming: 词干化处理
     
  15. iCasino

    iCasino 普通会员

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    术语的统一翻译有助于概念统一,这是一件功德无量的事情。如果大家都能接受这个术语翻译列表的话,我们写文章的时候就没有必要一个一个去澄清了。
    不过这个翻译标准有多少人愿意采用,就看大家的态度了。我采用了一个(分离式标注,本想翻译成独立式标注),算是皈依标准了。
     
  16. xujiajin

    xujiajin 管理员 Staff Member

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    我们从一开始就没打算制定什么标准,制定标准去规范别人是一件很可笑的事情。

    我们只是提供了文献中的常见汉译,做了一点文献整理工作而已。没有(合适)译法的,我们尝试提供了汉译。如帖子的标题所言我们“欢迎增补、批评指正”。

    术语的使用,一要合理,即切合原意;二要尊重约定俗成。

    我们提供的中文译法,从左到右,第一个是相对来说用得较多的,或者是我们认为较合理的。
     
  17. iCasino

    iCasino 普通会员

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    标准不一定要大家都遵循,但有人愿意遵循,一定是标准做得好,能满足大家的需求。做个事实上的标准又有何妨?With great power comes great responsibility,这件事落在北外也不冤枉(呵呵,挑战一下)。
    没有标准,也就没有Internet了,甚至买个插座也要回家量尺寸。标准不是为了规范别人,而是方便大家交流。
    至于我们称之为“标准”或“约定俗成”只是a rose by another name。
    或许我们可以参考RFC的命名法则,姑且称之为RFT(Recommendation for Translation),这样可以减少大家对“标准”这个词的反感。

    以上意见仅供参考。
     
    Last edited: 2010-03-29
  18. joe

    joe 初级会员

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    Useful.

    Thanks!
     
  19. 回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    Thank you so much, Dr,Xu
     
  20. iCasino

    iCasino 普通会员

    回复: 语料库术语汇编:欢迎增补、批评指正Bilingual corpus linguistics glossary

    提一个:
    inline annotation 嵌入式标注
    Xiao (Corpus-based language studies : Tony McEnery, Richard Xiao and Yukio Tono, Unit 4)曾提到类似的概念,用的是embedded annotation, ”嵌入式标注“这个翻译应当可以兼顾不同英语词组表示的意思,而且”嵌入“与”分离“也正好相对。In-line annotation 文内标注、行内标注似乎太紧扣字面意思了。