基于AntConc软件对议论文和说明文的对比研究——以朱光潜《咬文嚼字》和梁思成《中国建筑的特征》为例 作者:王晨超 来源:《黑龙江教育·理论与实践》 2020年第1期 王晨超 摘要:语料库语言学是一门新兴学科,它能为分析文本提供强大的助力,同时,语料库工具AntConc可以为文本分析提供可靠的理性依据。文章利用AntConc软件对议论文《咬文嚼字》和说明文《中国建筑的特诊》进行了对比分析,发现了7个具有显著差异的语言结构特征,这7个语言结构特征的差异同时也体现了议论文和说明文体裁的不同特点。 关键词:AntConc软件;《咬文嚼字》;《中国建筑的特征》;语言结构特征 近年来,计算机技术凭借其强大的数据处理能力而被广泛地运用于各学科中。语料库语言学就是一门综合了计算机技术和语言学知识的新兴交叉学科, 近年来语料库语言学正因其强大的文本数据处理能力而得以迅猛发展。语料库软件工具可以对任意一篇或若干篇文学作品进行分析对比,在这样的对比分析下,我们往往能够发现直观情况下不能发现的某些规律和特点,并能对我们对文学作品的直观认识进行验证。 一、语料和方法 本文通过使用AntConc3.4.3软件工具对朱光潜《咬文嚼字》和梁思成《中国建筑的特征》两篇文本进行提纲挈领的对比分析,进而发现两个文本区别于彼此的显著特征。具体的对比分析过程为选取两篇对比文本的语料,对这些语料进行分词并以单篇文本为单位来计算一些语言特征在每篇文本中出现的频率和百分比,再以样本的均值为基准来比较这些语言特征在两个文本中的分布是否具有差异性。 具体的对比分析方法是通过语料分析软件AntConc中的一些工具进行分析:通过Word List(词表)对词频进行升序排序;通过Word Types(词型)与Word Tokens(词例)的比值——型例比来判断文本词汇量的丰富度,型例比越高说明词汇使用越丰富,反之相反;通过检索功能Concordance呈现出所有包含被检索词的上下文,从而方便对被检索词的出现环境进行分析。在选取对比的文本时,考虑到文本作者所处时代环境对文本的影响,我们趋向于选择有同一时代背景的文本作为语料。朱光潜与梁思成两人年龄相仿,成长背景相似,且均为民国时期学术大师。朱光潜的《咬文嚼字》为3 308字,梁思成的《中国建筑的特征》为4 221字。两篇文章字数相差不大,且都入选为高中语文课本课文,说明这两篇文本具有足够的标准性和规范性,是议论文和说明文的代表。 二、数据分析 参考黄伟、刘海涛(2009)用于文本聚类的汉语计量特征,本文选择了词长、型例比、单现词比例等14个语言结构类型作为考察对象。表1列出了两个样本的14个语言结构的分布数据(下文中数据均四舍五入到小数点后4位)。 《咬文嚼字》的平均词长比《中国建筑的特征》的平均词长小8.00%,差距不大。在统计风格学和作者判别研究方面,句长值的研究是比较有应用价值的。根据表1的数据,《咬文嚼字》的平均句长比《中国建筑的特征》的平均句长少12.160 1,少29.19%,差距较大。这一数据显示在句子复杂程度方面,《咬文嚼字》的句子较为简单,《中国建筑的特征》的句子较为复杂,这与两篇文章的内容有比较直接的关系。《咬文嚼字》是一篇说理性的议论文,其目的是使读者明白作者想要传达的论点,文章句子的长度与读者对文章的理解程度是成反比的,句子长度越长,读者理解文章的难度越大,句子长度越短,读者理解文章的难度越小。句子长度短一点更容易使读者理解文章的论点;《中国建筑的特征》是一篇说明文,其目的是向读者介绍某种事物,文章相对专业性较强,其句子长度也会随之变大。 词的型例比可以表示语言中的词汇丰富度。在这点上,《咬文嚼字》比《中国建筑的特征》的型例比少0.09%,差距较小。单现词比例也能看出文本语言中的词汇是否丰富。单现词越多语言中的词汇丰富程度越高,表中《咬文嚼字》比《中国建筑的特征》的单现词比例少0.018 5,约为9.25%,此处数据与型例比显示结果相符。与《咬文嚼字》相比,《中国建筑的特征》用词稍为丰富。 14个语言结构的分布数据 在副词比例上,《咬文嚼字》比《中国建筑的特征》高0.029 7,约为31.26%,差距较大,这项数据说明《咬文嚼字》作为议论文没有说明文《中国建筑的特征》的严谨度高。名词比例一项,《咬文嚼字》比《中国建筑的特征》低0.046 6,约为23.59%,说明文本身就是说明事物,而不是说理,名词比例相对较高,这是由其体裁决定的。在代词比例上,《咬文嚼字》比《中国建筑特征》的代词比高出0.021 7,百分比为33.23%,说明文为防止指代不明现象,使用名词较多,代词较少,这一项与名词比例可互为印证。助词比例上,《咬文嚼字》比《中国建筑的特征》低0.020 2,百分比为27.82%,《中国建筑的特征》使用助词较多,下文将对此项进行说明。 陈述句比例,《中国建筑的特征》为1,《咬文嚼字》为0.917 5;疑问句比例两者均为0;感叹句比例上,《咬文嚼字》为0.082 5,《中国建筑的特征》为0。综合这三者的比值,我们可以看出两个文本在句式上使用的差异主要集中在感叹句上,《咬文嚼字》为议论文,有时为了论证论点,文本可以使用感叹句增加表达效果,而说明文《中国建筑的特征》只需要说明事物,不使用感叹句等表达较强情感的句式。从标点符号的比例来看,《咬文嚼字》比《中国建筑的特征》高出0.039 8,约为25.79%,差距比较大,这说明《咬文嚼字》的句子相对较短。这一统计数据与前文句子长度的比较结果相符。 对比所有14组数据,我们发现《咬文嚼字》和《中国建筑的特征》在句长、副词比例、名词比例、代词比例、助词比例、感叹句比例、标点符号比例这7组数据上的差距较为明显。由分析可知,《咬文嚼字》与《中国建筑的特征》相比,句子更简短,句式更富于变化,副词、代词使用频率较高,相比之下《中国建筑的特征》更多使用名词和助词。分析结果基本体现了议论文和说明文的典型特点。议论文旨在说理,句子简短,句式丰富,副词、代词出现频率较高;说明文旨在说物,句子较长,句式单一,名词出现频率较高。助词在《中国建筑的特征》中的高频率,我们认为是与作者梁思成的写作风格有关的,跟文本的体裁关系不大。表2是根据AntConct软件所得的两个文本出现频率前20位的词语。 由表2可知,《咬文嚼字》与《中国建筑的特征》前20位高频词中第一位分别是“的”和“之”,这两个词在这两篇文本中多为结构助词。“的”在《咬文嚼字》中出现了104次,“之”在《中国建筑的特征》中出现了282次。而根据我们的检索,“之”在《咬文嚼字》中只出现了6次,“的”在《中国建筑的特征》中只出现了2次。“之”和“的”在这两篇文本中的主要语法功能相同,都主要用作结构助词,并无其他不同,两者使用频率的不同与文本的体裁也没有关联,只是作者风格不同的一个显著表现。表2中《中国建筑的特征》的前20高频词有“之、其、为、以、而、所”6个词为助词,《咬文嚼字》只有“的、而”2个词为助词。这个数据表明《中国建筑的特征》的作者梁思成比《咬文嚼字》的作者朱光潜更偏爱用助词。 三、结语 本文通过运用AntConc软件对朱光潜《咬文嚼字》和梁思成《中国建筑的特征》两篇文本进行分析,得出了14个语言结构特征的分布数据,从中总结出了7个具有较大差异的语言结构特征,对这些特征的分析基本上解释了议论文和说明文各自的特征和差异。用语料库作为工具对文本进行分析能够帮助我们更好地认识文学作品,能够得到对文本更加合理的诠释。 参考文献: [1]黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. [2]王泳钦,彭兵转.基于语料库的语言主观意义应用研究[J].黑龙江教育(理论与实践),2019,(6):79-80. 编辑∕宋博瑶 本文来源:https://www.wddqw.com/doc/4aa043ffbcd5b9f3f90f76c66137ee06eef94ee8.html