一种基于云计算的舆情数据服务平台

时间:2023-03-01 23:48:11 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
龙源期刊网 http://www.qikan.com.cn

一种基于云计算的舆情数据服务平台

作者:张丽媛 李美子

来源:《科技资讯》2013年第08

要:本文提出一种基于云计算的大规模舆情数据服务平台设计方案,依托大规模网页采集分析技术、云计算数据处理技术、社会关系舆情传播分析技术和文本流舆情主题分类技术,针对不同需求的用户提供按需计费、可定制和可弹性管理的商业服务模式,实现网络舆情服务。

关键词:云计算 数据 服务平台 中图分类号:TP3

长期以来,互联网舆情是人们所关注的重点。通过网络所发布、传播、共享的舆情信息,是展现广大人民群众心态、体现政府能力和信心的重要手段。随着当前社交网络、移动网络等新型互联网平台的出现,目前对互联网舆情服务的要求正在日益增强。

现有的互联网舆情监测评估系统在语义处理上采用基于关键词的技术,其在网页处理上直接的局限表现在不能有效地进行实体识别,影响了主题定义的质量,导致系统在热点追踪、文本分类等核心功能的实现质量不高;在数据处理能力方面,由于系统运行在能力有限的物理分割服务器上,导致海量舆情数据的分析能力不足[1]。本文引入语义计算[2]、云计算[3]、主题检测等技术,为舆情分析提供了强大的数据采集、存储和处理能力,可以依据不同需求的用户提供不同的舆情分析能力和服务。

本文所提出的针对互联网中出现的新型移动平台、社交平台、舆情数据海量化等新兴状态,采用云计算技术、社交网络分析技术、语义计算技术、文本流主题检测技术、垂直搜索引擎技术等在内的多项新型技术,针对多样化和海量化的舆情数据展开监测和评估,并通过云计算所具备的全新计算架构,针对不同需求的用户提供按需计费、可定制和可弹性管理的商业服务模式,最大程度上契合用户的需求并降低用户的使用费用,通过空间、虚拟机和舆情评估模块定制等跳过用户自行投资信息化硬件建设的成本,为用户提供低价优质的全新舆情监测与评估体验。 1 整体方案

下面,本文将分别从舆情检测技术、云计算平台架构、舆情传播分析技术等三个方面阐述本文所提出平台的技术方案。 1.1 舆情检测技术


龙源期刊网 http://www.qikan.com.cn

主要由三个部分组成:(1)信息采集:主要完成网络舆情信息的采集工作,用户可以通过指定站点、频道、时间范围等对这部分功能进行定制。信息采集主要通过Crawler对网页进行采集,或者通过专用DB导出工具,直接挂接到站点的服务器上实现舆情信息的高效采集。2)用户接口:允许用户采用专门需求对自己的评估监测需求;允许用户专业特点、应用体验对系统的功能重新进行定制;完成舆情监测评估的报告的反馈呈现功能。(3)舆情监测评估控制:对监测评估需求进行语义解析,并据此调度监测评估程序库的程序,来完成监测评估结果,而后将结果以图形、表格、文字报告等形式反馈给用户。 1.2 云计算平台

云计算平台主要分为四个层次:基础资源服务层(即IaaS层)、数据服务层(即DaaS层)、平台服务层(即PaaS层)和软件服务层(即SaaS层)。在这四个层次中:(1IaaS层:基础资源虚拟化、基础资源动态负载平衡、超大规模高速网络聚合带宽技术、云安全控制。(2DaaS层:基于ETL的海量舆情实时信息处理、大规模舆情信息文本流分类管理、海量舆情数据安全防灾管理。该层中将通过结构化数据库(Oracle)和非结构化数据库HBaseHive)等同时管理存储数据。(3PaaS层:标准接口管理、异构数据交互与转化、服务部署、任务分配与平衡。该层中将部署节点控制器、集群控制器等实现平台管理。4SaaS层:统一访问门户、舆情采集、管理与分析挖掘应用部署。 1.3 舆情传播分析技术

当重点聚焦当前舆情传播中的用户社交关系的分析和处理:(1)用户社交关系路径获取与分析技术:实现不同ID情况下用户身份的统一识别和认证;继而对用户的网络社交关系、社交圈等进行记录和分析,从而获取用户对于每一个舆情主题的传播路径等。(2)用户社交关系的计算基础技术:该技术为用户社交关系、社交圈、社区身份等信息提供可计算的逻辑基础,从而使每一个用户的社交关系、身份信息等具备可定性或定量计算的可能。(3)用户关系在舆情传播中的路径和影响力预测技术:该技术可计算并预测不同程度和性质的用户关系可能会导致舆情主题的传播方向,传播对象和传播群体;同时可针对不同用户关系,预测这些关系和路径对舆情主题传播可能产生的附加影响力。 2 关键技术

本文所提出的舆情数据服务平台主要包括以下四个方面核心技术。

1)大规模网页信息采集、网页信息抽取、文本实体识别技术:通过构建云计算平台,利用云计算技术实现计算资源整合,并进一步利用虚拟机动态分配、网络节点分布式计算等实现大规模网页舆情数据的爬去的采集;利用语义计算、垂直搜索引擎技术、文本过滤、自然语言处理技术等实现了网页信息的抽取与文本实体识别,最终完成舆情信息的采集、分类、抽取等功能。


龙源期刊网 http://www.qikan.com.cn

2)基于云计算的大规模、分布式舆情信息分析处理能力:在云计算平台下,划分出专门的虚拟机,通过云平台下MapReduce并行算法,完成舆情信息的汉词切分、语料分析、主题提取和分类、舆情情感计算,最终实现舆情信息的分析处理功能。

3)基于社会关系的移动社交网络(微博等)信息舆情传播模式分析技术:依据互联网媒体平台中用户的社会关系,对移动互联网、社交网络等媒体中所出现的舆情数据进行深度分析,利用用户社会关系实现对舆情传播模式分析,最终完成主题传播跟踪、舆情影响力评估、舆情预测等功能。

4)大规模舆情文本流主题检测分类技术:针对互联网大规模文本流舆情数据,利用在线舆情文本进行主题建模技术、在云计算平台进行自动的非监督学习,对舆情文本进行分类、检测等。 3 结语

本文提出一种以云计算、语义计算、用户关系计算、文本流主题检测等技术为基础,克服了传统舆情检测系统仅仅依赖于关键字、词频等统计手段的缺点,同时涵盖了互联网、移动互联网、社交网络等不同传统和新兴网络载体,以面向服务的互联网舆情监测评估系统作为主,并向行业应用以及个人应用服务。 参考文献

[1] 郑魁,疏学明,袁宏永.网络舆情热点信息自动发现方法[J].计算机工程,2010363):4-6.

[2] 张波,向阳,黄震华.基于本体的决策问题语义理解及精炼方法[J].电子学报, 2012408):1603-1608.

[3] Creeger M.CTO RoundtableCloud Computing Communications of the ACMvol.52no.8august 200950-56. 文献标识码:A 文章编号:1672-3791201303b-0020-01


本文来源:https://www.wddqw.com/doc/182b65969ec3d5bbfd0a747a.html