网络评论中情感词的获取及极性判断方法比较
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
网络评论中情感词的获取及极性判断方法比较 许璐蕾 (苏州市职业大学,江苏 苏州 215104) [ 摘 要] 研究了情感分析中情感词的识别、褒贬分析。情感词识别是根据词义并结合上下文判断这个词是否有情感倾 向性。阐述了情感词识别和情感词极性判断的两种方法和技术。实验结果表明两种方法都得到了较好的效果。 [ 关键词] 情感词;机器学习;极性判别 1.引言 随着 web2.0 的盛行,人们喜欢在网上购物,也喜欢对 商品进行评价。这些评价除了可以给商家厂家提供改进的 意见外,还可以给其他购买者提供不小的指导性意见。比如 一台笔记本的评价为: 屏幕宽,键盘舒服,内存大。缺点:硬盘小了点,音效差。既然买了,就用着。 图 1 评价示例 在这些评价中屏幕的“宽”,键盘的“舒服”等都是直接 给予我们信息的词,我们常常把它们叫做情感词。 2.情感词及情感词典 在评论性文章里,情感词常常表达了作者的某种情感 倾向[1]。情感词的获取是褒贬分析的基础。情感词的获取对 文章褒贬的极性判别有着重大的意义。在情感词中,大体分 为褒义、贬义和中性三类。其中褒义表示对产品正面的评 价,比如:“这个型号的笔记本运行速度快”等。贬义表示对 产品负面的评价,比如:“这个产品有危险”。中性词一般不 能表达出评论者的倾向,比如:“我今天买了新手机”。 我们需要通过有限的褒贬种子词典和语料资源构建起 褒义词词典与贬义词词典,词典中有情感词、词性、褒贬性 等元素。其中褒贬性为“1”表示这个词是褒义词,褒贬性为 [1]“-1”为贬义词,褒贬性为“0”为中性词。实验显示,部分情 感词极性相同但是它们之间有数量上的区别,因此比较合 理的方法是采用 -1 至 1 的实数表示。正的数字范围表示褒 义词,负的实数范围表示贬义词,中性词仍然用 0 表示。 3.情感词的获取及判断 在众多的情感词获取的方法中,目前有:方法一:以 [2][3]HowNet情感分析用词表作为基本辞典,人工整理带有褒 贬性标注信息的句子后对词典中的情感词作频率统计,以 此为依据标识词语的极性的褒贬。方法二:从 HowNet 中挑 选出情感词构建种子情感词典,找出与词典中的词在同一 个句子中共同出现的情感词,计算这个候选情感词和种子 情感词之间的 S0-PMI (semantic orientation-pointwise mutual information)来判断极性[4]。方法三:找出语料中包含种子情 感词和候选情感词的并列型复句和转折型复句,统计候选情 感词与任意种子情感词共现频数等参数后判定,加入种子词 典[5]。 在获取情感词的任务中,选择了基于种子词典加统计的 方式和基于机器学习的方式进行了实验,并比较它们之间的 优劣。 3.1 基于种子词典加统计的方式 该算法思路是以种子词典为基础,确定候选词,并根据 统计模型计算候选词的置信度,将置信度大于阈值的候选词 加 到 扩 展 词 典 中 [5]。 极性的判断依赖种子词在上下文 (context)语境中的语义信息和位置信息。 (1) 种子词典的选择 利用 HowNet 提供的“中英文情感分析用词语集”中的 中文正面情感词、负面情感词、正面评价词、负面评价词四个 文件挑选出情感词构成种子情感词库。 (2) 语料准备 从互联网中使用爬虫抓取“手机、笔记本、数码相机、汽 车”等多个领域带有倾向性的产品评论,去除无关信息和代 码后作为语料。 (3) 候选情感词获取 首先对语料进行分句、分词,得到包含种子情感词的句 子。对于包含标点符号的句子,根据每个子句的长度来识别 它属于单句还是复句。这是一种比较粗略的划分,但在没有 对句子进行较为精确地句法分析时,这也是一个比较简单和 有效地策略。 接着对复句需要确定复句关系。我们将复句关系归为两 大类:并列关系和转折关系。我们根据出现在子句开头的复 句关系词来判断复句关系。对于不含复句关系词的复句,无 法借助句法深层的结构关系和语义关系来精准地确定复句 关系,可以根据经验粗略地将其均归为并列复句。 我们在选择候选情感词时,需要基于如下的判断: (1) 情感词的词性可能为形容词和动词; (2) 情感词在句子中会并列出现或对称出现。比如: A 这台笔记本漂亮、大方、便宜。这是并列出现。 B 这台笔记本外观很漂亮,散热也很优秀。这是对称出 —————————————— 作者简介:许璐蕾,女,江苏苏州人,硕士,讲师,研究方向:计算机网络。 — 53 — 应用技术与研究 改变邻接情感词极性。比如: 这台笔记本外观很漂亮,但散热很糟糕。已知“漂亮”是 褒义词,所 以可以判断“糟糕”是个贬义词。 通过这些原则我们可以选出候选情感词,将种子词典记 为 D,其中 的情感词记为 x,候选情感词记为 r,进行如下统 计: 统计语料中出现 r 的句子数,以句子为单位计数,计算 现。