基于Python的豆瓣金融类图书数据分析

时间:2023-01-08 05:19:17 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
基于Python的豆瓣金融类图书数据分析

作者:马梦烨 王涵

来源:《办公室业务(上半月)》 2021年第8



/扬州大学社会发展学院 马梦烨;华中师范大学信息管理学 王涵

【摘要】豆瓣读书作为豆瓣网的一个子栏目,2005年上线后已发展成为国内拥有信息最齐全、用户群体规模最大且活跃的阅读网站。本文基于Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,通过对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。一方面探究基于用户生成内容(UGC)的用户信息进行分析,找出它们之间的关系;另一方面通过数据可视化分析,深入挖掘豆瓣图书信息中数据的规律,为读者和用户选取金融类图书阅读提供帮助。

【关键词】Python;数据分析;UGC;可视化

豆瓣是目前网上对于图书信息收录最全的网站,图书评论都直接由用户提供(User-generatedcontent, UGC),用户对图书的记录是:评分、贴标签、写短评等等。豆瓣的图书评分可以最直观地帮助用户进行图书挑选,但由于用户爱好不同、倾向不同,评分仍会带有一部分主观因素,不能做到绝对客观。因此,本文提出基于Python的数据可视化分析研究方法,对标签为“金融”的豆瓣图书进行了更深入的分析,为读者和用户如何选取金融类图书提供指导和建议。

一、研究框架

本文对豆瓣金融类图书的研究框架如图1所示。首先,用Python抓取网页源代码并获得包含书名、作者、出版社等各个网页元素的数据。其次,将所抓取的图书数据进行处理和分析,并进行格式化存储,以便于后续的可视化展示。接着对数值数据和文本数据进行预处理操作,包括异常值处理、数据清洗、缺失数据补齐等。最后进行数据分析,利用Python做词云图、用Excel透视表绘制散点图、条形图等直观的展示图书各要素之间的关系,评估结果并得出结论。

二、数据分析

本文对Python抓取到的1000本豆瓣金融类图书信息进行了出版社词云可视化分析、评分可视化分析、评价人数和评分可视化分析。

(一)出版社词云可视化分析。使用Python中的Wordcloud模块,对1000本金融类图书的出版社进行分析并生成词云图。从图中可以看出,出版社这个词出现的频率最高,这是因为大部分出版社的后缀都是出版社,但也有部分后缀如出版公司、商务印书馆等,因而并未对出版社此后缀做统一处理。抛开此频率最高的词,其余频率前三的出版社自动加上后缀名,分别为机械工业出版社193本、中信出版社189本和中国人民大学出版社77本,说明国内外学者们尤其是国外学者对这三个出版社的青睐度最高。

(二)评分可视化分析。对1000本金融类图书评分数据进行分析,得出评分最高的5本金融类图书,通过Excel绘制条形图。评分最高的5本金融类图书分别为:应用公司财务、投资者养成指南(一)、金融随机分析(共2册)、证券法学(第四版)和投资者文摘,评分分别9.9分、9.8分、9.7分、9.7分和9.7分。

(三)评价人数和评分可视化分析。对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。由图中可以发现,绝大部分金融类图书的评价人数都集中在0-5000人这个


区间内,其中评价人数前五的书籍为:货币战争、原则、经济学原理(上下)、思考快与慢和伟大的博弈,评价人数分别为43853人、24112人、16539人、14531人和12409人,评分分别7.2分、8.3分、9.1分、8.1分和8.3分。



同时又对1000本金融类图书中评分大于等于9.0以上的评价人数的数据进行整理,通过Excel绘制散点图。由图中看出,绝大部分评分大于等于9.0以上的评价人数都集中在0-4000人这个区间内,其中评价人数前五的书籍为:经济学原理(上下)、经济学原理、经济学原理(第7版)、期货市场技术分析和彼得·林奇的成功投资,评价人数分别为16539人、10259人、2926人、2398人和2029人。

将两张图对比可以发现,评价人数前五的书籍评分都不高,仅有一本书的评分大于9.0分。其中评价人数最多的书籍是货币战争,但其评分只有7.2分;评分前五的书籍评论人数也不多,仅有经济学原理(上下)这本书处在评论人数前五的书籍中。由此得出评论人数多的评分不一定高,评分高的评论人数不一定高,评论人数和评分之间的相关性较弱。

(四)评分和出版年份可视化分析。对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。评分大于等于9.0以上的书籍出版年份集中在2005年以后,且评分大多集中在9.0分和9.1分,评分为9.7分及以上的书籍较少。进一步分析猜测评分大于等于9.0以上的这些书籍可能是由于出版年份较晚,阅读和评论人数较少。而一本书的总体评分受每个评分人给出的评分和评论人数的影响,可能是少部分的评论人数均给出较高的评分,因而评分大于等于9.0分以上的书籍并不代表书的热度高和受欢迎程度高,这两者之间的相关性较弱。

三、结论

统计学和图书馆学等传统研究方法并不能深层次地挖掘图书信息的潜在规律。本文基于Python语言从豆瓣读书页面中获取金融类图书相关数据,并对其进行可视化分析,得出以下结论:

图书出版社词云分析得出,机械工业出版社、中信出版社和中国人民大学出版社是出版金融类图书最多的三个出版社,说明读者对这三个出版社的青睐度最高。在选择图书出版社时,可优先将自己的作品交给这三个出版社进行出版发行,同时,图书馆、书店等在采购金融类图书时也可优先关注这三个出版社的信息。

图书评分分析得出,评分最高的5本金融类图书分别为:应用公司财务、投资者养成指南(一)、金融随机分析(共2册)、证券法学(第四版)和投资者文摘,这对有意学习金融知识的人来说,具有很好的参考作用,在阅读金融类图书时可以更优先考虑评分最高的金融类书籍。

图书评价人数和评分分析得出,评价人数前五的书籍评分都不高,仅有一本书的评分大于9.0分。其中评价人数最多的书籍是货币战争,但其评分只有7.2分;评分前五的书籍评论人数也不多,仅有经济学原理(上下)这本书处在评论人数前五的书籍中。由此可见评论人数和评分之间的相关性较弱,因而在选择金融类图书时,不能够由评分人数的多少判定图书的好评度,也不能由评分的高低来判断图书的热度。

评分和出版年份分析得出,评分大于等于9.0以上的书籍出版年份集中在2005年以后,且评分大多集中在9.0分和9.1分,评分为9.7分及以上的书籍较少。进一步分析猜测评分大于等于9.0分以上的这些书籍可能是由于出版年份较晚,阅读和评论人数较少。而一本书的总体评分受每个评分人给出的评分和评论人数的影响,可能是少部分的评论人数均给出较高的评分,


因而评分大于等于9.0分以上的书籍并不代表书的热度高和受欢迎程度高。由此可见这两者之间的相关性较弱,因而在选择金融类图书时,不能只根据评分来判定图书的热度和受欢迎程度,还需要考虑出版年份、评论人数等多重因素。

四、结语

综上,本文基于PythonExcel透视表对豆瓣金融类图书信息进行了深入的分析,在用户对金融类图书的选择上给出了更好的建议,同时也给图书馆、书店等采购金融类图书提供了建设性意见。但本文在数据预处理部分考虑的并不充分,此外本次研究选择的仅是对豆瓣金融类图书进行分析,并未对更多标签下的图书信息进行分析,具有一定的局限性。

【参考文献】

[1]朱涤尘,夏换.基于数据可视化和线性回归的豆瓣图书榜单数据分析[J].信息技术与信息,2019(12): 218-220.

[2]罗培铭.虚拟社区用户生成内容的影响因素——以小红书为例[J].新闻研究导,2018,9(12):60-61.

[3]徐亚茹.基于标签的图书个性化推荐系统的设计与研究[D].山东师范大学,2018.

[4]庄莹.中国图书排行榜研究[J].中国出版,2015 (12):64-69.

[5]胡跃鹏.豆瓣图书排行榜运营策略研究[D].河北大学,2018.

[6]周洪斌.基于Python的豆瓣图书评论数据获取与可视化分析[J].沙洲职业工学院学,2018,21(04):1-6.

[7]夏洋.基于用户参与的社交网站标签差异及有效性研究——以豆瓣读书网为例[J].江苏科技信息,2019, 36(36):67-71.


本文来源:https://www.wddqw.com/doc/5997db94de88d0d233d4b14e852458fb770b382c.html