“HSK动态作文语料库”说明

时间:2022-05-01 03:58:19 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
HSK动态作文语料库”说明 1

HSK动态作文语料库 是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。项目编号为:HBK01-05/023 2

HSK 动态作文语料库 是母语非汉语的外国人参加高等汉语水平考试( HSK 高等)作文考试的答卷语料库,收集了 1992-2005 年的部分外国考生的作文答卷。语料库 1.0 收入语料 10740 篇, 400 万字, 2006 12 月下旬上网试运行。经修改补充,语料 1.1 版语料总数达到 11569 篇,共计 424 万字。 3

语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。 4

作文语料的加工处理包括下列 内容:

1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。

2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。

3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。

4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。

5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。

为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。 5

本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。 6

本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。例如汉语中介语研究、第二语言习得研究、对外


汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、与对外教学相关的汉语本体研究,等等。这些研究对提高汉语教学、汉语测试、汉语本体研究等方面的水平,都具有重要意义。 7

建设本语料库的根本目的是为用户提供一个考察和研究的基础平台,为对外汉语教学和研究服务,促进国内乃至全球对外汉语教学事业的发展。因此,本语料库将 免费提供给 广大 外汉语教师、研究人员、对外汉语相关专业的研究生和本科生、以及对汉语教学和研究感兴趣的其他人士使用。我们衷心希望听到相关领域的专家和各界用户的宝贵意见,并在此基础上不断改进、完善语料库,以更好地为广大用户服务。


本文来源:https://www.wddqw.com/doc/178ff4f2d0d233d4b14e6990.html