全文总字数:1630字
1. 毕业设计(论文)主要内容:
近年来,随着互联网的快速发展,大数据和云计算已成为IT行业和学术界最热门的话题。本课题基于Spark利用Java Web技术设计工业大数据处理分析的可视化平台,用户不需要去了解大数据开发平台的底层细节,只需要在Web界面端根据数据分析需求定制任务,然后提交给平台处理再等待结果输出。
2. 毕业设计(论文)主要任务及要求
(1) 查阅不少于15篇的相关资料,其中近5年外文文献不少于3篇,完成开题报告(设计目的意义至少800汉字,基本内容和技术方案至少400汉字)。
(2) 搭建Hadoop Spark集群,使用非关系型数据库Hbase存储数据。
(3) 熟悉Apache Spark计算框架,实现最大最小值、平均值等统计分析算法,使用Spark MLlib实现线性回归算法、聚类算法对数据进行分析。
3. 毕业设计(论文)完成任务的计划与安排
(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
(2) 第4-7周:搭建Hadoop Spark集群,掌握Hbase数据库存储原理和Spark分布式计算原理。
(3) 第8-10周: 完成数据分析系统前端页面和后台系统开发。
4. 主要参考文献
[1]J. Chen et al, "A Parallel Random Forest Algorithm for Big Datain a Spark Cloud Computing Environment," IEEE Transactions on Parallel andDistributed Systems, vol. 28, (4), pp. 919-933, 2017.
[2]J. Gonzalez-Lopez, S. Ventura and A. Cano, "Distributed nearestneighbor classification for large-scale multi-label data on spark," FutureGeneration Computer Systems, vol. 87, pp. 66-82, 2018.
[3]O. A. Sarumi, C. K. Leung and A. O. Adetunmbi, "Spark-baseddata analytics of sequence motifs in large omics data," Procedia ComputerScience, vol. 126, pp. 596-605, 2018.
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。