范文大全 - 让每个人平等地提升自我 厦门大学软件学院《毕业设计(论文)》开题报告 学生姓名 校内指导教师姓名 职称 班级 所在单位 学号 厦门大学软件学院 毕业设计(论文)基于隐形反馈的用户个性化查询服务研究--用户行为资料收题 目 集研究 毕业设计(论文)的目标: 一、整体目标 1.搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索 2.采用四层架构,并且使得层与层之间松耦合高内聚 3.实现不同中文分词算法的切换 4. 可更换数据源 5.跨平台(Windows、Linux和Unix) 6.人性化的用户界面 二、基于隐形反馈的用户个性化查询服务研究目标 1. 学习和理解几种常用查询扩展技术 2. 学习怎样通过用户的隐式的反馈信息,包括先前的查询和点击通过的信息,来增加在综合信息检索环境下检索的正确性。 3. 单独实现一个独立于系统外的收集用户行为资料的firefox插件。 实现方法: 一、基本环境 开发工具:eclipse +myeclipse +Tomact + 开发语言:Java 开发平台:Windows XP 开发使用的插件:myeclipse 开发使用的web容器:Tomcat 6 软件建模:StarUml 5.0.2,Visio 二.系统模块划分 搜索引擎一般分为三个阶段:搜集,预处理以及提供查询服务,因为目前系统中的数据源是已经存在的,所以此系统只涉及预处理以及提供查询服务模块。以TF*IDF算法为例,对于页面的排序涉及到预处理阶段中对网页权重的计算,以及查询服务阶段的相关性排序,有必要先对系统的这两个模块做一下描述: 3)预处理模块 1 分词 分词主要的操作对象是数据源以及用户提供的查询语句,系统首先通过分词工具对数据源进行分词,形成索引表以及倒排索引表,然后再将用户的查询条件用同样的分词工具进行分词,最后根据分词后的词条进行查询。TF*IDF算法就是通过分词后的词频(TF)来计算数据源的权值的。 2 建立倒排索引表 所谓倒排索引表就是通过关键字(词条)对数据源进行映射,这样系统中就形成了如下图的映射关系: 1 范文大全 - 让每个人平等地提升自我 TF*IDF算法所需要的倒置文档频率(IDF)可以从这个步骤获得。 (二)查询服务模块 查询服务模块主要提供用户查询的服务,系统首先对用户的查询条件进行分词,然后将分词后的结果作为输入,将其提供给查询模块,查询模块进行进一步的处理,最后系统将符合用户条件的数据源返回给用户。例如使用TF*IDF算法,查询模块将分词后的查询条件同数据源进行向量余弦比较,得到按照相关性排序的结果,返回给用户。 三.模块关系 模块之间的关系可以通过下图来描述: 四.系统流程图 整个系统的流程图如下: 2 本文来源:https://www.wddqw.com/doc/443b76e47175a417866fb84ae45c3b3567ecdd86.html