浅谈语料库分类及用途 一、语料库的定义 在语言学中,语料库是指大量文本的集合。在语料库语言学中,他们是主要用来进行统计分析与假设检定,在某一领域中,测试语言规律的出现或有效性。语料库可以是某一单独语种的文本(单语语料库),又或者是多种语言中的文本数据。 二、语料库的分类 1.多语种语料库 多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。它是由大量的平行文本(parallel text)组成。平行文本通常是几种语言放在一起,有原文有译文,对齐放置。较为著名的平行文本有洛布古典丛书和克莱梵语丛书。平行文本不仅仅是两种语言的平行,有时会有多种语言集合。如圣经研究中,关于圣经的译文可以有多种版本。较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。 在多語种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。 在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。 2.数图资料库 一些语料库还可用于分析文本结构水平。尤其是一些较小的语料库,有可能全部都有解析。这些语料库通常称为数图资料库(Treebanks)或者解析语料库(Parsed Corpora)。在语言学中,数图资料库就是一个文本的解析语料库,对句法或语义结构进行注释。在二十世纪九十年代初期的解析语料库的建造使计算机语言学发生了翻天覆地的变化,使他们从大范围经验数据中获益。世界上规模最大的数图资料库是宾夕法尼亚大学数图资料库(The Penn Treebank)。自从该资 本文来源:https://www.wddqw.com/doc/29afa6050708763231126edb6f1aff00bed570b2.html