新浪微博的数据 随着微博的火热,各种微博应用和研究都开始流行起来。基于微博数据,可以进行用户偏好分析、趋势话题分析、用户关系网络挖掘、情感分析、热点统计、舆情分析等科研工作。 新浪微博,作为国内最大的微博网站,也是科研人员的重点研究对象。下面列出网上可以下载到的新浪微博的各种数据,在此基础上可以进行各种微博分析。 1.北理工发布的微博数据 - http://www.datatang.com/Member/6880/ 北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取,从新浪微博、腾讯微博中获得大规模的微博数据,具体包括: 1)微博博主语料库:包括100万条博主的各种信息(内部id、性别、家庭住址、粉丝数目、微博数量、关注数量等) 2)微博内容语料库:包括23万条微博内容(具体包括文章编号、文章内容、评论数、时间、来源、所属人物id等) 3)微博关注关系语料库:包括1000万条微博的关注关系(人物id、所关注人的id) 2.用新浪微博API导出的数据 - http://www.datatang.com/data/13491。包括新浪微博截至到2011年8月份的认证用户,从新浪微博API获取的,字段较全,包括用户名,性别,头像,地址,描述,用户ID,认证类别等 3.新浪公共微博数据TREC格式 - http://www.datatang.com/data/11999 包含新浪的135万条微博记录,经过整理,处理为TREC格式,包含DOCNO、USER、TEXT字段,文件原始大小269M,经过压缩目前为62.7M 4.六万条新浪微博用户数据 - http://www.datatang.com/data/11819 包括六万条新浪微博用户的数据,具体包括用户id、姓名、省份、城市、注册时间、数据采集时间、性别、是否是认证用户、好友数、粉丝数、发表的微博条数、发表的微博等。 5.新浪微博的历史热门话题数据,包括历史热门话题及话题中的相关博文。 1)新浪微博2011年7月14日热门话题TREC格式数据集 http://www.datatang.com/data/12008 2)新浪微博2011年7月13日热门话题TREC格式数据集 http://www.datatang.com/data/12007 3)新浪微博2011年7月12日热门话题TREC格式数据集 http://www.datatang.com/data/12009 - - - 4)新浪微博2011年7月11日热门话题TREC格式数据集 http://www.datatang.com/data/12005 5)新浪微博2011年7月15日热门话题TREC格式数据集 http://www.datatang.com/data/12011 - - 6.北京大学微博可视分析系列工具 - http://www.datatang.com/Member/8293/ 北京大学可视化与可视分析研究组开发的挖掘微博里故事的在线工具。它利用新颖的可视化方式呈现微博中的事件,能够快速浏览和分析微博事件中的人和事,为您浏览微博提供了一种全新的方式。通过直观的视图清晰地呈现出一个事件中微博转发的过程,能够迅速地发现事件中的关键人物、关键微博、重要观点,帮助人们更好地分析新浪微博中事件的发生与发展过程。 本文来源:https://www.wddqw.com/doc/cfc6fc0ba6e9856a561252d380eb6294dc882277.html