基于hadoop平台的分布式网络爬虫研究与实现任务书

 2021-08-20 22:17:11

1. 毕业设计(论文)主要内容:

Hadoop是一个基于集群、能够对大量数据进行分布式计算和存储的软件框架,由于其高可靠性、高容错性以及高扩展性而在大数据处理中得到广泛应用。

网络爬虫是一种根据一定规则自动提取网页信息的程序,能够从万维网上抓取大量信息。

本课题要求完成hadoop平台的搭建、研究网络爬虫原理,并在hadoop平台上实现网络爬虫程序,获取网络数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

1. 完成hadoop平台的搭建;

2. 基于hadoop平台开发设计网络爬虫系统,抓取网络数据并存储在hdfs上;

3. 在hadoop平台上进行系统测试及优化;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

1. 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。

2. 第4-5周:完成hadoop平台的搭建,了解其基本操作。

3. 第6-9周:研究并掌握hdfs、mapreduce基本框架及网络爬虫算法基本原理。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] White T. Hadoop: The Definitive Guide[J]. O’reilly Media Inc Gravenstein Highway North, 2010, 215(11):1 - 4.

[2] Nesi P, Pantaleo G, Sanesi G. A hadoop based platform for natural language processing of web pages and documents[J]. Journal of Visual Languages Computing, 2015, 31:130-138.

[3] Zhang X, Xian M. Optimization of Distributed Crawler under Hadoop[C]//MATEC Web of Conferences. EDP Sciences, 2015, 22: 02029.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。