相关性分析及其在特征选择中的应用研究任务书-任务书网

1. 毕业设计（论文）主要目标：

本文主要通过研究一个较为简单的，经典的数据挖掘案例，包括数据的预处理，数据的相关性挖掘以及多种算法的使用，来探索鸢尾花数据集之中的相关性，以及特征值的选择。

其中我们通过均值和方差来研究这组数据的集中和分散程度，通过相关系数计算方法来计算其相关性，去除其中的重复项造成的影响。之后采用Kmeans来对数据进行聚类分析，得出数据的分类结果，后可用贝叶斯分类器对要预测的数据做出预测。

最后综合上述，多组特征数据，以及组内的多个特征值，通过决策树算法，训练决策树，使得计算机在非人工干预的情况下对数据进行分类。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

初步计划，完成以下几个内容：

（1）数据获取：搜寻网络相关的开源数据集，初步决定采用鸢尾花数据集，用于我们算法的分析和处理，之后结合EXCEL处理数据，依据MLLib的数据格式要求进行数据的格式化处理

（2）数据过滤：通过采用计算相关系数，来探究数据中的重复和冗余项，对重复的数据进行洗涤和去重，为进一步的分析做准备。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

（1）周志华《机器学习》，清华大学出版社, 2016年1月.

（2）Martin Odersky, Lex Spoon, Bill Venners《Scala 编程》.

（3）王晓华华《Spark MLlib 机器学习实践》清华大学出版社，2015年.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文任务书，课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。