基于Spark 的大数据k-means并行聚类算法应用研究任务书-任务书网

1. 毕业设计（论文）主要目标：

（1）熟悉linux系统，java编程，完成spark环境的搭建，深入学习聚类kmeans算法。（2）查阅、研究有关文献，综合目前的现状和成果，根据实际研究与开发的需要，完成kmeans并行聚类算法的应用与研究。（3）根据开发过程中出现的问题以及相应的解决方法，分析、总结、归纳，整理相关文献，并根据自己的毕业设计完成情况独立写作、论述，完成毕业论文。

2. 毕业设计（论文）主要内容：

K-means属于聚类分析中一种基本的划分方法，常采用误差平方和准则函数作为聚类准则，该算法在处理大数据集时是相对可伸展且高效率的，同时具有潜在的数据并行性。

互联网文本数据量的激增使得K-means聚类算法在面对海量数据时，不能满足计算要求，我们把K-means算法改造成并行K-means算法，更好地满足大规模文本数据挖掘算法的需求。

3. 主要参考文献

[1]周润物，李智勇，陈少淼，陈京，李仁发．计算机应用.面向大数据的并行优化抽样聚类K—means算法，2016，2：311-315．

[2]何婷婷，戴文华，焦翠平，基于混合并行遗传算法的文本聚类研究[J].中文信息学报，vol.21:55-60,2007.

[3]袁冬，基于海量文本的语义构造方法研究[D].山东：中国海洋大学，2012.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文任务书，课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于Spark 的大数据k-means并行聚类算法应用研究任务书

1. 毕业设计（论文）主要目标：

2. 毕业设计（论文）主要内容：

3. 主要参考文献

您可能感兴趣的文章

登录

1. 毕业设计（论文）主要目标：

2. 毕业设计（论文）主要内容：

3. 主要参考文献

您可能感兴趣的文章