基于LSTM 神经网络的中文情感分类 作者:范智皓 王浩狄 刘淏言 张寓侠 吴 珂 来源:《中国新通信》 2018年第14期 【摘要】 随着互联网的发展,情感分析在大数据分析中运用广泛。本文首先介绍情感分析相关模型算法,再将情感分类与LSTM 模型结合进行实验,并根据实验结果进行分析,发现缺陷与问题,并提出可行的改进与展望。 【关键词】 情感分类 数据集 LSTM 一、引言 随着社交网络的发展,情感分析的研究蓬勃发展。社会媒体文本中用于表达情感的内容可以用于训练情感分析模型,从而对语句情感做出准确预测。情感分析在各领域应用广泛。 二、相关概念 1、情感分析。情感分析是指使用自然语言处理、文本挖掘系统地识别、提取、量化和研究情感状态和主观信息。现有的情感分析方法可分为三大类: 基于知识技术、统计方法和混合方法。 2、数据集。亚马逊商品评论是一项重要的业务,客户经常基于评论做出购买决定。我们选取和整合的数据集为亚马逊评论,分类有0 和1,0 为消极评论,1 为积极评论。3、模型介绍。1)RNN。传统的神经网络模型中,训练样本的输入与输出是相对确定的。但当训练样本输入是连续序列,需要根据前面的来推断后续的内容,RNN 能很好的解决。RNN 模型存在着梯度消失的问题,对于长时记忆的效果较差,实际中很难处理长期依赖。LSTM 改进了RNN 的隐藏层结构,能够很好地处理长期依赖。2) LSTM。LSTM 对RNN 的隐藏结构做了改进,让其避免了梯度消失的问题。LSTM 中每个索引t 时刻和RNN 相同,都有一个隐藏状态。并且,LSTM 多了一个细胞状态的隐藏状态h(t)。细胞状态记为c(t)。LSTM 在每个索引t 时刻还多了三种门结构,遗忘门、输入门和输出门。 三、实验步骤 3.1 数据分析 标签:提取评论内容;标注:情感分类;数据集:训练集、开发集、测试集。 3.2 预处理 通过正则消除标签和情感相关性低的内容;评论标注情感分类,1 为积极,0 为消极;对评论进行分词操作。 3.3 模型训练与预测 训练文本转化为多元特征矩阵后,将其输入LSTM 模型。每一次循环迭代中首先训练文本多元特征矩阵,经过LSTM神经网络层,通过激活函数计算分类结果,根据损失函数值反向传播算法调节参数损失函数是用来衡量差距,多次训练使损失函数的值达到最小,再完成模型训练。 四、实验结果与分析 这部分,展示基于LSTM 神经网络模型在中文情感分类问题的预测结果。 4.1 数据集 数据来自于NLPCC2014,数据为亚马逊的中文评论内容,数据集如下: 4.2 评价指标 准确率:用P 来表示准确率,设a 为正确数目,b 为所有数目,公式为 4.3 实验结果与分析 先进行训练,然后手动输入并进行分类,结果如下: 对于简单评论,可以较为准确的得到情感分类。对开发集和测试集进行分类,结果如下: 可以得出对简单表达的评论的情感预测较为准确,但是对较为复杂的内容效果不明显。 五、总结 本文进行了以下工作:1. 获取数据集,并在实验之前做好预处理。2. 根据LSTM 的长期记忆的特征优势,将其作为情感分析的实验模型。3. 用LSTM 模型对文本进行特征提取,多次迭代训练模型,进行预测并计算准确率。本文预测准确率大概在0.72,对复杂情况是不准确的。可改进的有以下几点:1)词嵌入应当根据特征分配不同的权重,加强情感要素的权重,完善权重分配算法。2)训练数据量不足,效果不具备广泛性,还需更全面数据实验。3)本文研究属于二分类问题,应将从二分类问题拓展到多分类、回归问题上。 参 考 文 献 [1] 李科. 基于多元特征融合和LSTM 神经网络的中文评论情感分析[D]. 太原理工大学,2017. [2] 梁军, 柴玉梅, 原慧斌, 高明磊, 昝红英. 基于极性转移和LSTM 递归网络的情感分析[J]. 中文信息学报,2015,29(05) [3] 葛达明. 基于微博平台的中文情感分析技术的研究[D]. 沈阳工业大 学,2017. 本文来源:https://www.wddqw.com/doc/2989f26626c52cc58bd63186bceb19e8b9f6ec55.html