申请书

时间:2022-04-10 18:09:33 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
在学校我就读的专业是计算机科学,在学完data structuredata management 两项课程后,我开始对网站设计感到十分的有兴趣。

在东部软件园实习的时候,我作为一个初进公司的信息管理系统实习生,在领导的安排下,我的日常工作时维护并改进该公司的网络爬虫。网络爬虫,又被称为网页蜘蛛、网络机器人。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。然而,随着网络的迅速发展,网站成为了大量信息的载体。那么,对于我来说如何有效地提取并利用这些信息成为了一个巨大的挑战。

由于很多网站痛恨爬虫程序,网站的管理者会检查链接来源,果发现链接来源不合规或者非正常途径,他们会设置拦截,加之很多网站会根据后台的访问量来进行“查虫”,这便导致给之前预设的方案带来了阻碍。基于此我采用了“延迟提交时间”的方式,即:让程序静止5秒钟再进行下一次运作,使得方案能够较好的进行下去。之后的实习过程中,我通过与友人的交流,了解到如果使用代理可以更好地解决之前所顾虑的问题。

在之后的工作中,公司安排了我下载网页,获取有效信息的任务。我发现,下载网页是较为简单的,但是想要在网页中提取出自己想要的数据并没有那么容易。因为初级的爬虫可以利用urliburllib库以及正则表达式完成,虽然较为高级的爬虫可以利用强大的scrapy框架抓取 LinkedIn数据从而准确获取或生成潜在客户的邮箱地址, 但是在操作中我还是遇到了一些问题,比如一直遇到截取的信息不完全的情况。因此,我在下班之后阅读了一些相关的书籍,并与师兄师


姐们积极沟通,这才发现正则表达式会自动默认开启大小写敏感模式,在关闭后之前的问题便得以解决。另外我与几位师兄一起参与了VBA过滤器项目,该过滤器主要用于过滤私人邮箱地址,支持无限多的过滤规则并可自动生成报表,并分析客户对公司广告邮件中的点击行为。

little search Engine这个项目中,我与几位同事一起运用哈希表和java自带的arraylist储存字符在多个文件中分别出现的频率, 并在储存时进行排序,以此达到将多个文件按特定字符出现频率排序的目的。该项目的数据结构为,总哈希表的每一项包括表示一个单词的string(关键码值),以及一个用来储存出现次数和相应文件名的Arraylist(储存的数据)。定义一个Occurrenceclass,该类包括单词出现的频率,以及出现的文件名。从文件中读取单词并创建相应的Occurrence,然后映射到哈希表中。该项目的算法和方法主要有,先创建一个子哈希表,将该文件中的所有单词读取,并在读取过程中调用getKeyWord,处理该String旁边的空格以及标点符号,排除noise words.再查看改单词是否已经出现(loadKeyWords).调用loadKeyWords,将所有待搜索的文件makeIndex到一个哈希表中,接着用for each循环,调用insertLastOccurrence方法将子哈希表中的数据并入总哈希表中(mergeKeyWords)loadKeyWords返回的子哈希表作为参数调用mergeKeyWords方法,然后读取下一个文件名,直到所有待搜索文件的文件名都被读取.最后用top5search找出单词频率最高的文件名。

通过在校的学习和在公司的历练,我深刻地感受到了学以致用的


含义,只有将理论知识结合实际,才能发挥出其最大的作用。




本文来源:https://www.wddqw.com/doc/aba7e2646037ee06eff9aef8941ea76e59fa4a1b.html