网络评论中情感词的获取及极性判断方法比较

时间:2022-04-13 07:40:05 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
网络评论中情感词的获取及极性判断方法比较



许璐蕾

(苏州市职业大学,江苏 苏州 215104)

[ ] 研究了情感分析中情感词的识别褒贬分析情感词识别是根据词义并结合上下文判断这个词是否有情感倾

向性阐述了情感词识别和情感词极性判断的两种方法和技术实验结果表明两种方法都得到了较好的效果

[ 关键词] 情感词;机器学习;极性判别

1引言

随着 web2.0 的盛行,人们喜欢在网上购物,也喜欢对 商品进行评价这些评价除了可以给商家厂家提供改进的 意见外,还可以给其他购买者提供不小的指导性意见比如 一台笔记本的评价为:

屏幕宽,键盘舒服,内存大缺点:硬盘小了点,音效差既然买了,就用着

1 评价示例

在这些评价中屏幕的键盘的舒服等都是直接 给予我们信息的词,我们常常把它们叫做情感词

2情感词及情感词典

在评论性文章里,情感词常常表达了作者的某种情感 倾向[1]情感词的获取是褒贬分析的基础情感词的获取对 文章褒贬的极性判别有着重大的意义在情感词中,大体分 为褒义贬义和中性三类其中褒义表示对产品正面的评 价,比如:这个型号的笔记本运行速度快贬义表示对 产品负面的评价,比如:这个产品有危险中性词一般不 能表达出评论者的倾向,比如:我今天买了新手机

我们需要通过有限的褒贬种子词典和语料资源构建起 褒义词词典与贬义词词典,词典中有情感词词性褒贬性 等元素其中褒贬性为1表示这个词是褒义词,褒贬性为

[1]

-1为贬义词,褒贬性为0为中性词实验显示,部分情 感词极性相同但是它们之间有数量上的区别,因此比较合 理的方法是采用 -1 1 的实数表示正的数字范围表示褒 义词,负的实数范围表示贬义词,中性词仍然用 0 表示

3情感词的获取及判断

在众多的情感词获取的方法中,目前有:方法一:

[2][3]

HowNet情感分析用词表作为基本辞典人工整理带有褒 贬性标注信息的句子后对词典中的情感词作频率统计, 此为依据标识词语的极性的褒贬方法二: HowNet 中挑 选出情感词构建种子情感词典,找出与词典中的词在同一 个句子中共同出现的情感词,计算这个候选情感词和种子 情感词之间的 S0-PMI (semantic orientation-pointwise mutual

information)来判断极性[4]方法三:找出语料中包含种子情

感词和候选情感词的并列型复句和转折型复句,统计候选情 感词与任意种子情感词共现频数等参数后判定,加入种子词 [5]

在获取情感词的任务中,选择了基于种子词典加统计的 方式和基于机器学习的方式进行了实验,并比较它们之间的 优劣

3.1 基于种子词典加统计的方式 该算法思路是以种子词典为基础,确定候选词,并根据 统计模型计算候选词的置信度,将置信度大于阈值的候选词 [5] (context)语境中的语义信息和位置信息

(1) 种子词典的选择 利用 HowNet 提供的中英文情感分析用词语集中的 中文正面情感词负面情感词正面评价词负面评价词四个 文件挑选出情感词构成种子情感词库

(2) 语料准备

互联网中使用爬虫抓取手机笔记本数码相机 等多个领域带有倾向性的产品评论,去除无关信息和代 码后作为语料

(3) 候选情感词获取 首先对语料进行分句分词,得到包含种子情感词的句 对于包含标点符号的句子,根据每个子句的长度来识别 它属于单句还是复句这是一种比较粗略的划分,但在没有 对句子进行较为精确地句法分析时,这也是一个比较简单和 有效地策略

接着对复句需要确定复句关系我们将复句关系归为两 大类:并列关系和转折关系我们根据出现在子句开头的复 句关系词来判断复句关系对于不含复句关系词的复句, 法借助句法深层的结构关系和语义关系来精准地确定复句 关系,可以根据经验粗略地将其均归为并列复句

我们在选择候选情感词时,需要基于如下的判断: (1) 情感词的词性可能为形容词和动词;

(2) 情感词在句子中会并列出现或对称出现比如: A 这台笔记本漂亮大方便宜这是并列出现 B 这台笔记本外观很漂亮,散热也很优秀这是对称出



作者简介:许璐蕾,女,江苏苏州人,硕士,讲师,研究方向:计算机网络

53








应用技术与研究



改变邻接情感词极性比如:

这台笔记本外观很漂亮,但散热很糟糕已知漂亮 褒义词, 以可以判断糟糕是个贬义词



通过这些原则我们可以选出候选情感词,将种子词典记 D其中 的情感词记为 x候选情感词记为 r进行如下统 计:



统计语料中出现 r 的句子数,以句子为单位计数,计算