网络爬虫技术提取网页信息应用与研究任务书

 2021-08-22 23:47:02

1. 毕业设计(论文)主要内容:

随着网络的飞速发展,万维网成为大量信息的载体。有许多应用需要将这些网页上的信息提取,如搜索引擎、资讯采集、舆情监测等等。网络爬虫从一个原始初始网页URL 种子开始,建立 URL 连接,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。网络爬虫是从网页提取信息的有效途径。

论文研究网络爬虫设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法等,并是使用C#完成网络爬虫系统的开发和测试工作。

2. 毕业设计(论文)主要任务及要求

(1) 查阅不少于15篇(其中近5年的外文文献不少于3篇)的相关资料,完成开题报告(设计的目的及意义至少800汉字;基本内容和技术方案至少400汉字)。

(2) 论文主要研究网络爬虫设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法等,并是使用C#完成网络爬虫系统的开发和测试工作;

(3)完成不少于5000汉字(20000英文印刷符)的英文文献翻译。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

(1)第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

(2)第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。

(3)6-9周:编程实现各算法,并进行仿真调试。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] 明日科技 C#从入门到精通(第3版)[M] 清华大学出版社 2012

[2] 罗刚 自己动手写网络爬虫[M] 清华大学出版社 2010

[3] 郝以珍 基于页面分析的网络爬虫系统的设计与实现[D] 华中科技大学 2012年

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。