Python复习资料

时间:2022-07-13 22:16:16 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
Python复习题目

填空题:

1. 导入第三方包的函数:import

2. 导入包的三个函数numpypandassklearnmatplotlib 3. 大数据的4V特征:大量的、有价值、高速的和多样的 4. 数据分析最重要的步骤:训练和预测

翻译题:

5. 大数据:big data

6. 数据挖掘:data mining

7. 机器学习:Machine Learning 8. 数据科学data science 9. 数据分析:data analysis 10. 深度学习:deep learning 11. 数据清洗 data cleaning 12. 数据集 Dataset

选择题:

13. Python是面向对象的脚本语言

14. BATH:百度、阿里巴巴、腾讯、华为 15. HTML:超文本标记语言

16. 谷歌提出了Hadoop(分布式计算) 17. 沃尔玛尿不湿与啤酒属于关联规则 18. Apriori是关联规则的算法 19. 决策树的名称decision tree 20. 计算多少行用leadY

21. 没有标签的是聚类,有标签的是分类 22. Read——csv()是pandas来读取数据的 简答题:

一、简述什么是数据挖掘和数据分析的流程?

1数据分析流程模型



分析:1、爬取数据集;


2、预处理数据; 3、建立模型分析; 4、结果分析;

5、可视化操作

二、简述3种数据分析的模型并举例 作图

聚类分析:在没有给定划分类别的情况下,根据数据的相似度进行分组

的一种方法,分组的原则是组内距离最小化而组间距离最大化。比如利用K-means算法来分析鸢尾花的数据。

分类分析:就是按照事物的性质。特点。用途等作为区分标准,将符合

同一标准的事物聚类,不同的则分开的一种认识事物的方法。比如利用决策树算法来对气候样本进行分类。

回归分析:是确定两种或两种以上变量间相互依赖的定量关系的一种统

计分析方法。比如利用一元回归分析来预测房价与面积之间的关系。 名词解释:

1. 数据挖掘(Data Mining:数据库、机器学习、人工智能、统计学的交叉

学科。

2. 关联规则Association Rules)是反映一个事物与其他事物之间的相互

依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 3. 数据预处理:数据预处理是指在主要的处理以前对数据进行的一些处理。

如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等

4. 数据分析(data analysis数据分析是指用适当的统计分析方法对收集

来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 代码题:


分析鸢尾花聚类(10分) 首先画图,做简单的题目解释 代码如下:

#第一步 导入数据

from sklearn.datasets import load_iris hua=load_iris() #第二步 训练

from sklearn.cluster import KMeans clf=KMeans(n_clusters=4) clf.fit(hua.data,hua.target) #第三步 预测

pre=clf.fit_predict(hua.data) print pre

#第四步 可视化

import matplotlib.pyplot as plt x1=[n[0] for n in hua.data] x2=[n[0] for n in hua.data] plt.scatter(x1,x2,c=pre,s=200) plt.show()

最后一题 网页爬虫

#第一步导入扩展包 import urllib

from bs4 import BeautifulSoup #第二步 定义url与解析网页 url="网址"

content=urllib.urlopen(url).read()

soup=BeautifulSoup(content,"html.parser") #输出标题

print soup.title.get_text() #定位div所在位置

num=soup.find_all("div class=yxz") #输出结果

for n in num:

print n.get_text()

1) 分析网页的结构,并找到classyxz的节点 2) 导入相关python包,并爬取所有的网页奖励DOM 3) 调用相关函数爬取对应的数据 4) 将数据保存到本地


本文来源:https://www.wddqw.com/doc/9f94c7c76aec0975f46527d3240c844768eaa078.html