信息安全1201 3120604024 张智远 一.选择题: 1.以下不属于信息交互协议的是:(C) A.HTTP(S)信息 B.MMS信息 C.RIP信息 D.Gopher信息 2.以下不属于HITS算法的特点的是:(B) A.对抗链接反作弊功能差 B.计算效率高 C.部署位置在客户端 D.存在主题泛化问题 3.数据挖掘技术中不包括(D) A.可视化系统 B.空间数据挖掘 C.分布式数据挖掘 D.集中式数据挖掘 4.(B)不属于网络信息获取技术。 A.数据挖掘技术 B.信息隐藏技术 C.信息推荐技术 D.信息还原技术 5.使用原始套接字可以实现下列(D) ①traceroute ②ping ③ICMP头 ④TCP头 A.②③④ B.①③④ C.①②③ D.①②③④ 6.向量空间模型中的降维的最有效的办法就是(A)。 A.特征选择 B.精确查找 C.多维映射 D.聚类分析 7.特征项必须具备的特征不包括:(C) A.能够准确标识文本内容 B.具有将目标文本与其他文本相区分的能力 C.数量没有限制 D.特征项分离要比较容易实现 8.下列属于分类所采用评估函数的是(D) A.交叉熵 B.信息增益 C.x2统计 D.以上所有 9..x2统计具有(B)的特性。 A.降维简单 B.可靠性好 C.没有区分度 D.计算量小 10.信息抽取技术的功能不包括(A) A.从文件集中选取一个与用户需求相关的子集 B.以结构化的形式描述信息 C.从自然语言文本中抽取事实信息 D.供信息查询、文本深层挖掘、自动回答问题等应用 二.填空题: 1.信息安全学科是研究确保信息的完整性、可用性、保密性、可控性以及可靠性的一门综合性新型边缘学科。 2.网络信息的获取主要通过搜索引擎、数据挖掘、信息推荐等技术实现。 3.搜索引擎分为全文搜索引擎、目录式搜索引擎、元搜索引擎。 4.数据挖掘是通过从数据库中提取隐含的、未知的具有潜在使用价值信息的过程。 5.常见的网络数据包捕获方法有原始套接字、Libpcap、Winpcap、Jpcap四种。 6.文本处理过程包括文本预处理、特征提取及缩维、知识模式提取、知识模式评价。 7.机械分词法分为最大匹配法和最小匹配法。 8.特征项是用于表示文本的基本单位。 9.文本内容分析包括文本语法分析、文本语义分析、文本语用分析。 10.垃圾邮件泛滥的最主要的技术原因是SMTP协议缺陷。 三.判断题: 1.过滤技术中黑名单的设定简单直接,可以涵盖所有情况。(×) 2.协议还原技术的研究对象是计算机网络协议数据,理论基础是网络协议规范。(√) 3.邮件的特征来源不包括HTML编码和元信息。(×) 4.构建一个好的词汇库可以提高过滤的准确性。 (√) 5.潜在语义索引模型利用矩阵进行奇异值分解来挖掘文本潜在的语义内容。(√) 6.文本挖掘和模式匹配是基于内容的网络过滤的关键技术。(×) 7.垃圾邮件占用网络带宽,浪费网络资源,但对网络安全没有威胁。(×) 8.TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告。(√) 9.布尔模型、向量空间模型和潜在语义索引模型是基于代数论的模型,(×) 10.SMTP是基于TCP服务的应用层协议,协议规定了用户和服务器之间的双向通信规则及信封信息的传递。(√) 四.简答题: 1.什么是信息检索?信息检索的主要任务是什么?一般通过什么方式进行信息检索? 答:信息检索是信息的需求者主动地在网上搜寻所需要的信息。主要任务是协助信息的潜在用户将信息需求转换成一张文献来源信息列表。目前通常使用搜索引擎技术完成信息检索功能。 2.什么是网页排级?试简述PageRank排级算法的优缺点。 网页排级是一种复杂的网页普及度评分,它根据链接源的网页排名来确定链接的不同权重。 PageRank与用户查询请求无关,计算效率高,所有互联网页面节点都可以作为计算对象,部署位置在服务器端,不存在主题泛化问题,稳定性好,对抗链接反作弊功能优秀。 3.什么是文本预处理?请简述文本预处理的必要性。 将文本转化为方便计算机识别的结构化数据的技术就是文本预处理技术。 与数据库中的结构化数据相比,文本具有有限的结构或根本没有结构,文档的内容是人类所使用的自然语言,计算机很难处理其语义,通过信息获取技术得到的原始文本不能直接用于信息处理,所以必须进行文本预处理。 4.试比较向量空间模型与布尔模型在文本预处理中的优缺点。 向量空间模型简洁直观,支持部分匹配和近似匹配,结果可排序,但由于是基于直觉的经验性公式,理论上的支持不够,标引项之间的独立性假设与实际不符。 布尔模型简单,具有自我保护功能,但只能严格匹配,出现多个结果无法排序,一般用户构造查询不是很容易,构造不利会影响结果的数量。 5.简述特征提取的主要功能和常用方式。 功能:是在不损伤文本核心信息的情况下尽量减少要处理的词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。 方式:用映射或变换的方法把原始特征变为新特征;从原始特征中挑选;根据专家的知识挑选;用数学的方法进行选取。 本文来源:https://www.wddqw.com/doc/0c73a20aa0116c175e0e4835.html