Python复习题目 填空题: 1. 导入第三方包的函数:import 2. 导入包的三个函数numpy、pandas、sklearn和matplotlib 3. 大数据的4V特征:大量的、有价值、高速的和多样的 4. 数据分析最重要的步骤:训练和预测 翻译题: 5. 大数据:big data 6. 数据挖掘:data mining 7. 机器学习:Machine Learning 8. 数据科学:data science 9. 数据分析:data analysis 10. 深度学习:deep learning 11. 数据清洗 data cleaning 12. 数据集 Dataset 选择题: 13. Python是面向对象的脚本语言 14. BATH:百度、阿里巴巴、腾讯、华为 15. HTML:超文本标记语言 16. 谷歌提出了Hadoop(分布式计算) 17. 沃尔玛尿不湿与啤酒属于关联规则 18. Apriori是关联规则的算法 19. 决策树的名称decision tree 20. 计算多少行用lead(Y) 21. 没有标签的是聚类,有标签的是分类 22. Read——csv()是pandas来读取数据的 简答题: 一、简述什么是数据挖掘和数据分析的流程? 1、数据分析流程模型: 分析:1、爬取数据集; 2、预处理数据; 3、建立模型分析; 4、结果分析; 5、可视化操作 二、简述3种数据分析的模型并举例 作图 聚类分析:在没有给定划分类别的情况下,根据数据的相似度进行分组的一种方法,分组的原则是组内距离最小化而组间距离最大化。比如利用K-means算法来分析鸢尾花的数据。 分类分析:就是按照事物的性质。特点。用途等作为区分标准,将符合同一标准的事物聚类,不同的则分开的一种认识事物的方法。比如利用决策树算法来对气候样本进行分类。 回归分析:是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。比如利用一元回归分析来预测房价与面积之间的关系。 名词解释: 1. 数据挖掘(Data Mining):数据库、机器学习、人工智能、统计学的交叉学科。 2. 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 3. 数据预处理:数据预处理是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等 4. 数据分析(data analysis):数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 代码题: 分析鸢尾花聚类(10分) 首先画图,做简单的题目解释 代码如下: #第一步 导入数据 from sklearn.datasets import load_iris hua=load_iris() #第二步 训练 from sklearn.cluster import KMeans clf=KMeans(n_clusters=4) clf.fit(hua.data,hua.target) #第三步 预测 pre=clf.fit_predict(hua.data) print pre #第四步 可视化 import matplotlib.pyplot as plt x1=[n[0] for n in hua.data] x2=[n[0] for n in hua.data] plt.scatter(x1,x2,c=pre,s=200) plt.show() 最后一题 网页爬虫 #第一步导入扩展包 import urllib from bs4 import BeautifulSoup #第二步 定义url与解析网页 url="网址" content=urllib.urlopen(url).read() soup=BeautifulSoup(content,"html.parser") #输出标题 print soup.title.get_text() #定位div所在位置 num=soup.find_all("div class=yxz") #输出结果 for n in num: print n.get_text() 1) 分析网页的结构,并找到class为yxz的节点 2) 导入相关python包,并爬取所有的网页奖励DOM树 3) 调用相关函数爬取对应的数据 4) 将数据保存到本地 本文来源:https://www.wddqw.com/doc/9f94c7c76aec0975f46527d3240c844768eaa078.html