1. 毕业设计(论文)主要目标:
本文主要通过研究一个较为简单的,经典的数据挖掘案例,包括数据的预处理,数据的相关性挖掘以及多种算法的使用,来探索鸢尾花数据集之中的相关性,以及特征值的选择。
其中我们通过均值和方差来研究这组数据的集中和分散程度,通过相关系数计算方法来计算其相关性,去除其中的重复项造成的影响。之后采用Kmeans来对数据进行聚类分析,得出数据的分类结果,后可用贝叶斯分类器对要预测的数据做出预测。
最后综合上述,多组特征数据,以及组内的多个特征值,通过决策树算法,训练决策树,使得计算机在非人工干预的情况下对数据进行分类。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 毕业设计(论文)主要内容:
初步计划,完成以下几个内容:
(1) 数据获取:搜寻网络相关的开源数据集,初步决定采用鸢尾花数据集,用于我们算法的分析和处理,之后结合EXCEL处理数据,依据MLLib的数据格式要求进行数据的格式化处理
(2) 数据过滤:通过采用计算相关系数,来探究数据中的重复和冗余项,对重复的数据进行洗涤和去重,为进一步的分析做准备。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 主要参考文献
(1)周志华 《机器学习》,清华大学出版社, 2016年1月.
(2)Martin Odersky, Lex Spoon, Bill Venners《Scala 编程》.
(3)王晓华华 《Spark MLlib 机器学习实践》清华大学出版社,2015年.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。