基于Spark的工业大数据分析系统任务书

 2021-12-23 20:28:00

全文总字数:1630字

1. 毕业设计(论文)主要内容:

近年来,随着互联网的快速发展,大数据和云计算已成为IT行业和学术界最热门的话题。本课题基于Spark利用Java Web技术设计工业大数据处理分析的可视化平台,用户不需要去了解大数据开发平台的底层细节,只需要在Web界面端根据数据分析需求定制任务,然后提交给平台处理再等待结果输出。

2. 毕业设计(论文)主要任务及要求

(1) 查阅不少于15篇的相关资料,其中近5年外文文献不少于3篇,完成开题报告(设计目的意义至少800汉字,基本内容和技术方案至少400汉字)。

(2) 搭建Hadoop Spark集群,使用非关系型数据库Hbase存储数据。

(3) 熟悉Apache Spark计算框架,实现最大最小值、平均值等统计分析算法,使用Spark MLlib实现线性回归算法、聚类算法对数据进行分析。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。

(2) 第4-7周:搭建Hadoop Spark集群,掌握Hbase数据库存储原理和Spark分布式计算原理。

(3) 第8-10周: 完成数据分析系统前端页面和后台系统开发。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1]J. Chen et al, "A Parallel Random Forest Algorithm for Big Datain a Spark Cloud Computing Environment," IEEE Transactions on Parallel andDistributed Systems, vol. 28, (4), pp. 919-933, 2017.

[2]J. Gonzalez-Lopez, S. Ventura and A. Cano, "Distributed nearestneighbor classification for large-scale multi-label data on spark," FutureGeneration Computer Systems, vol. 87, pp. 66-82, 2018.

[3]O. A. Sarumi, C. K. Leung and A. O. Adetunmbi, "Spark-baseddata analytics of sequence motifs in large omics data," Procedia ComputerScience, vol. 126, pp. 596-605, 2018.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。