基于Spark的频繁项集挖掘算法并行化研究任务书

 2021-11-10 22:04:57

1. 毕业设计(论文)主要目标:

信息科技发展如此迅速的当今社会,大数据来临的时代。

传统的频繁项集挖掘算法已经无法满足用户需求,而基于Spark的大数据框架优化传统的频繁项集挖掘算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率。

2. 毕业设计(论文)主要内容:

(1)熟悉Hadoop分布式系统架构,linux系统,java编程,完成spark环境的搭建,深入学习Apriori算法。

(2)查阅、研究有关文献,目前的现状和成果,根据实际研究与开发的需要,完成Apriori算法的实现与优化。

(3)根据开发过程中出现的问题以及相应的解决方法,分析、总结、归纳,整理相关文献,并根据自己的毕业设计完成情况独立写作、论述,完成毕业论文。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 主要参考文献

[1]黄美灵,Spark MLlib机器学习:算法、源码及实战详解[M]电子工业出版社,2016.

[2]刘鹏,实战Hadoop:开启通向云计算的捷径[M].电子工业出版社,2011.

[3]李玲娟,张敏.云计算环境下相关规则挖掘算法的研究[J].计算机与发展,2011
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。