1. 毕业设计(论文)主要目标:
信息科技发展如此迅速的当今社会,大数据来临的时代。
传统的频繁项集挖掘算法已经无法满足用户需求,而基于Spark的大数据框架优化传统的频繁项集挖掘算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率。
2. 毕业设计(论文)主要内容:
(1)熟悉Hadoop分布式系统架构,linux系统,java编程,完成spark环境的搭建,深入学习Apriori算法。
(2)查阅、研究有关文献,目前的现状和成果,根据实际研究与开发的需要,完成Apriori算法的实现与优化。
(3)根据开发过程中出现的问题以及相应的解决方法,分析、总结、归纳,整理相关文献,并根据自己的毕业设计完成情况独立写作、论述,完成毕业论文。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 主要参考文献
[1]黄美灵,Spark MLlib机器学习:算法、源码及实战详解[M]电子工业出版社,2016.
[2]刘鹏,实战Hadoop:开启通向云计算的捷径[M].电子工业出版社,2011.
[3]李玲娟,张敏.云计算环境下相关规则挖掘算法的研究[J].计算机与发展,2011
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。