微博情感分析研究综述

时间:2023-04-13 23:33:10 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。


微博情感分析研究综述

本文阐述了国内微博及国外微博情感分析的研究现状,分析了微博情感分类方法的优缺点,提出了研究方法的改进方向。认为,目前中文微博情感分析研究缺乏完善的情感词典,缺乏针对话题型做特定的分析,同时也缺乏适用于特定话题的领域情感词典。因此,今后微博情感分析的改进思路是:针对话题微博文本进行情感分析;完善情感词典并丰富情感词的情感强度;考虑更多的情感特征项,将更多的语法规则和短语加入到情感词典中。



标签: 微博;微博情感;分类;研究综述

随着互联网在中国的普及,人们的生活方式也逐渐地发生变化,越来越多的人通过互联网获取和发布信息。众多的社会化媒体平台开始诞生,例如博客、博、社交网络等。在Web2.0时代的主流网络社交平台中,由于微博拥有快速传播、及时、自由、灵活、简短特点,广大互联网用户开始在微博上传播政治话题、体育话题、娱乐话题。每天都有大量的具有分析价值的微博评论产生,这些评论信息包含大量情感信息和观点。大量针对微博的研究随之而来,目前微博情感分析的研究主要针对英文微博文本,面向中文微博情感分析的研究尚处于起步阶段。通过对微博情感分析相关文献的研究,本文对国内外的微博情感分析研究进行综述,归纳国内外微博情感分析采用的方法,并对分析方法的优缺点进行总结。



一、国内微博研究综述

综合中文微博情感分析的研究文献,中文微博情感分类主要有两类方法:于情感词典的情感分类和基于机器学习的情感分类。



基于情感词典的情感分类。文献[1]考虑到感叹词对情感强度的增加,中文否定词、多重否定对情感极性的影响,通过定义态度词典、权重词典、否定词典、程度词典以及感叹词词典来计算每条微博的情感指数。考虑到微博内容的丰富和复杂,文献[2]提出基于语义的词典加规则的方法,构建短语的情感词典,更进一步将具有情感极性的短语和短语规则加入其中,提高微博文本情感极性分类的效果。文献[3]提出词典与机器学习相结合的方法,以动词、形容词作为特征,用情感词典计算特征的极性值,最后用SVM对微博文本进行三元情感分类。为了解决一词多义的情况,文献[4]提出两个极性词典结合使用,对具有不同极性的词语进行人工判定,从而降低歧义造成的情感分类误差。



基于機器学习的情感分类。文献[5]提出使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法,对微博进行了情感分类的实证研究,果表明三种机器学习算法各有优势。文献[6]利用微博表情图和情感词语构建中文微博情感语料库,在此基础上构建贝叶斯分类器对微博文本进行情感分类,高了分类的准确性。



二、国外微博情感分析的研究现状






国外微博的情感分析主要是针对Twitter的文本数据展开情感分析,已经有较多的研究成果。综合国外微博情感分析文献综述,情感分析方法目前有三类,包括基于词典的方法、完全监督的机器学习方法、非完全监督的方法。目前tweets的情感分类主要基于机器学习方法。



文献[7]选取Twitter文本信息中的相关标签和表情符号作为标注,构建一个有监督的分类器,对微博进行情感分类。文献[8]提出了一种距离监督学习方法Twitter中的消息进行情感分类,利用朴素贝叶斯,最大熵以及支持向量机等分类算法进行了实验,达到 80%以上的精度。文献[9]Tweets的情感分类采用二步分类法,先将文本进行主客观分类,然后进行二元极性分类,分类过程中考虑与主题相关的特征和Tweets间的转发关系,并且采用图模型的方法,对比未使用图模型之前的结果,准确率提高2.3%



三、微博情感分类方法的优缺点

基于词典的情感分类方法依赖于构建的情感词典。很多的词汇存在一词多义,词汇的内涵和情感色彩往往会因为时代的不同而褒贬不一。新的词汇也会不断的产生、未登录词较多。这些情况加大了情感词典的构建难度。优势是该方法更能体现文本的语义特性,将短语、语法规则、加入到情感词典中,更能体现文本内存在联系和表达的情感。



基于机器学习的情感分类方法的缺陷是通过提取文本中的情感词作为文本特征,而后构建分类器进行分类,这种方法割裂了文本中应有的词语间的相互联系,且不能较好解决文本中出现多个情感词时引发的情感发散问题。优势是较好的克服了未登录词的影响,将文本数据进行分词后,根据需要合理的提取特征项,然后通过训练构建分类器就可以进行情感极性分类。



四、结语

微博文本情感分析是在传统的文本分析基础上,结合微博文本的特点。目前中文微博情感分析研究缺乏完善的情感词典,而且情感词典中往往不区分情感词之间情感强弱;缺乏针对话题型做特定的分析,同时也缺乏适用于特点话题的领域情感词典。因此,今后微博情感分析的改进思路包括:针对话题微博文本进行情感分析;完善情感词典并丰富情感词的情感强度;考虑更多的情感特征项,如网络用语、表情符号、语气词词、程度副词、否定词对微博文本情感分类的影响;将更多的语法规则和短语加入到情感词典中。




本文来源:https://www.wddqw.com/doc/25fbf9a71cb91a37f111f18583d049649a660ed4.html