龙源期刊网 http://www.qikan.com.cn 社会网络中焦点人物的挖掘与分析 作者:赵峰 来源:《数字技术与应用》2011年第04期 摘 要:用户在社会网络中以blog的形式记录并与他人分享自己在各方面的知识领悟,极大地促进了信息的共享与交流。为了能在众多用户和blog中找出最受欢迎或者最具有价值的以供其他用户进行参考,本文提出了根据用户行为特征挖掘社会网络中焦点人物和用户关系的理论观点并进行了系统的设计与实现。 关键词:社会网络 blog 焦点人物 用户关系 中图分类号:F62 文献标识码:A 文章编号:1007-9416(2011)04-0167-01 社会网络研究起始于20世纪20、30年代英国人类学的研究,其原理是认为每个行动者都与其他行动者有或多或少的关系,而社会网络分析就是恰恰是要建立这些关系的模型,描述群体关系的结构,以求研究这种结构对群体功能或者群体内部个体的影响。以往的社会网络分析的重点在于人物关系,而本文则是在分析社会网络中人物关系的基础上挖掘社会网络中的焦点人物,即找出目标网络中最受欢迎的某些人物。本文即是设计并实现一个查询社会网络中焦点人物及其用户关系的搜索引擎。 1、相关工作 21世纪后,人们越来越多地通过网络进行沟通、交流以及形成人际关系。在这样的时代背景下,从人类学、心理学、社会学、传播学研究、数学以及统计学领域中发展起来的社会网络分析开始用于网络时代虚拟社区中人际交流的研究。 目前已有很多发展比较成熟的人物关系搜索网站,这里我们选取两个比较有代表性的网站进行简洁的介绍。 1.1 微软人立方 微软人立方关系搜索是由微软亚洲研究院网络搜索与挖掘组研发的对象级别(object-level)互联网搜索引擎。人立方关系搜索从超过十亿的中文网页中自动的抽取出人名、地名、机构名以及中文短语,并且通过算法自动的计算出它们之间存在关系的可能性;同时,人立方关系搜索还索引了支持它们之间关系的网页文字。 龙源期刊网 http://www.qikan.com.cn 1.2 腾讯SOSO 腾讯SOSO主要提供了访问最热的一些人与事的关联。在这个页面里我们可以看到许多人物肖像被做成小图标放在其中,一个图标所链接的页面就是关于此图片人物的热门关联及其相关热门搜索。 2、算法设计 本课题的核心算法是计算用户受关注的程度,本文将受关注程度最高的用户定义为焦点人物。用户受关注程度的计算也就是用户影响力的计算。在本课题研究中我们根据用户的Blog推荐者、Blog被推荐次数以及评论条数这几个因素来计算用户的影响力。 3、系统设计与实现 本文设计并实现了焦点人物及其关系查询搜索引擎,并以科学家网为例进行了实验。整个系统分为三个模块,分别为:网络爬虫模块,数据分析模块以及搜索模块。 3.1 网络爬虫 网络爬虫是整个研究课题的数据准备阶段,它负责从万维网上抓取数据以供后面的功能模块使用。整个爬虫系统包括五个模块,分别是:url_injector、crawler、storage、url_parser和url_parser,各模块功能分别如下: url_injector模块:其功能是为网络爬虫程序注入URL链接种子。当crawler模块运行起来时,负责从URL种子文件中读取URL种子链接并发送到crawler模块。 crawler模块:接收其他模块发送来的URL链接,到万维网上抓取该链接对应的HTML网页,并将抓取的HTML网页发送到storage模块。 storage模块:负责存储HTML网页。此模块通过接口可以接收来自crawler模块的HTML页面,也可以将HTML页面发送到其他需要的模块。 url_parser模块:其功能是解析HTML页面中的URL链接(HTML页面时通过接口接收的发自storage模块的网页),并通过接口将解析的URL链接发送到url_server模块。 url_server模块:其功能是负责处理URL链接。此模块接收的链接是由url_parser模块解析而来,有些链接是不合法的,有些链接是已经被抓取过的,而url_server模块负责将这些不合法的龙源期刊网 http://www.qikan.com.cn 或者已经被抓取的URL链接剔除,并将处理过的URL链接放入队列通过接口发送到crawler模块。 lib模块:lib模块与其他五个模块不同,它没有主程序也不负责完成任何一个子功能。我们只是将前五个模块中用到的公共类、方法以及接口统一在一起,构成了lib模块。 3.2 数据分析模块 数据分析包括标识和提取用户信息以及分析Blog信息。提取社会网络中的焦点人物需要具备该网络中的所有用户信息,而用户受关注程度的计算则需要Blog推荐者、被推荐次数以及评论条数这些Blog相关信息的影响。 由于用户的Blog首页地址是唯一的,所以我们选择Blog首页地址来标识用户,在本文中我们称Blog首页地址为u_url。另外,鉴于用户在发表评论时所对应的地址是另一种格式的地址,在本文中我们称其为bbs_url,我们将bbs_url也作为标识用户的一部分。如此可知,用户的存储结构为。 4、结语 本文分析了社会网络中焦点人物及其用户关系的挖掘方法,设计并实现了关系查询搜索引擎,并以科学家网为例进行了数据抓取、数据分析以及用户搜索的实验。 文中的焦点人物提取算法具有很强的实际参考性。该算法是根据用户行为相关元素进行计算,并在多次试验的基础上进行调整而得。而焦点人物及其关系搜索引擎的实现也为众多社会网络用户提供了了解目标网络人物关系的平台,具有一定的实际参考意义。 参考文献 [1]N. Sundaresan and J. Yi. Mining the Web for relations. Computer Networks, 2000, 33(1-6):699~711. [2]E. Agichtein and L. Gravano. Snowball: extracting relations from large plain-text collections. In: Proceedings of thefifth ACM conference on Digital libraries. New York: ACM Press,2000, 85~94. 本文来源:https://www.wddqw.com/doc/6b340a2a294ac850ad02de80d4d8d15abf23002f.html