1. 毕业设计(论文)主要内容:
Hadoop是一个基于集群、能够对大量数据进行分布式计算和存储的软件框架,由于其高可靠性、高容错性以及高扩展性而在大数据处理中得到广泛应用。
网络爬虫是一种根据一定规则自动提取网页信息的程序,能够从万维网上抓取大量信息。
本课题要求完成hadoop平台的搭建、研究网络爬虫原理,并在hadoop平台上实现网络爬虫程序,获取网络数据。
2. 毕业设计(论文)主要任务及要求
1. 完成hadoop平台的搭建;
2. 基于hadoop平台开发设计网络爬虫系统,抓取网络数据并存储在hdfs上;
3. 在hadoop平台上进行系统测试及优化;
3. 毕业设计(论文)完成任务的计划与安排
1. 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
2. 第4-5周:完成hadoop平台的搭建,了解其基本操作。
3. 第6-9周:研究并掌握hdfs、mapreduce基本框架及网络爬虫算法基本原理。
4. 主要参考文献
[1] White T. Hadoop: The Definitive Guide[J]. O’reilly Media Inc Gravenstein Highway North, 2010, 215(11):1 - 4.
[2] Nesi P, Pantaleo G, Sanesi G. A hadoop based platform for natural language processing of web pages and documents[J]. Journal of Visual Languages Computing, 2015, 31:130-138.
[3] Zhang X, Xian M. Optimization of Distributed Crawler under Hadoop[C]//MATEC Web of Conferences. EDP Sciences, 2015, 22: 02029.
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。