语料库研究初探

时间:2022-05-01 03:58:16 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
龙源期刊网 http://www.qikan.com.cn

语料库研究初探

作者:齐芷玥

来源:《文存阅刊》2018年第11

摘要:本文将从语料库的定义、类型、内容、规模设计、标注原则、建库方法等角度对语料库进行分析,目的是通过展现语料库相关基础知识,向语料库初学者提供帮助。 关键词:语料库;建库一、语料库定义

语料库就是大量语言材料的集合。语料库(Corpus)是指一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库。在计算机网络技术和信息技术快速发展的现代社会,语料库主要指经科学取样和加工的大规模电子文本库。[3] 二、语料库类型

语料库有多种类型,确定类型的主要依据是它的研究目的和用途。有学者曾经把语料库分成四种类型:(1)异质的(Heterogeneous);(2)同质的(Homogeneous);(3)系统的Systematic);(4)专用的(Specialized)。[4]参考此种分类方法,可进一步将国内语料库进行分类,种类包括以下五种:

1.通用语料库 general):主要用于一般性的语料库研究;

2.专用语料库 specialized):是为了对某个特定领域语言变体进行研究而建立的语料库;

3.平行语料库 parallel corpus):为对比某种语言的原文文本和其对应的译文文本之间的差异、研究翻译行为而建的语料库;

4.可比语料库 comparable corpus):是由具有某些相同或相似属性的文本构成的语料库;

5.学习者语料库 learner corpus):如中国英语学习者语料库(CLEC)、中国英语学生口笔语语料库 1.0 SWECCL1)等。 三、语料库的内容及建库用途。

如果说规模是针对量的问题,那么,内容就是要解决质的问题。对于内容,最根本的是要真实,它包括:1.要收集实际使用中的文本,而不能是研究者杜撰的;2.要收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。


本文来源:https://www.wddqw.com/doc/8baabe58a4e9856a561252d380eb6294dc882244.html