基于距离度量的特征选择方法及应用任务书

 2021-11-08 22:03:26

1. 毕业设计(论文)主要目标:

本文主要是对特征选择(Feature Selection)进行研究,它在科研和实际生产生活中普遍存在。特征选择是指按照某一评判准则,在一组给定的数据集中,挑选出一组具有良好区分特性的特征子集,使得系统的特定指标最优化的过程。通过特征选择,大量的数据能够被区分出来,从而进行人工智能特征筛选。一来,能剔除不相关的,冗余的甚至还有一些没有差异刻画能力的特征;二来,这样做能够减少特征的个数,试验的运行时间能够提高来提高效率而且还能减少训练,甚至是还能提高模型的精确度。拥有一个好的学习样本是能提高一个学习算法训练分类器的关键。当然,样本中的冗余或不相关的信息也是能直接得影响分类器的性能。

目前我们发现了两方面的问题:一方面是因为特征和分类器之间的性能是不存在线性关系的,所以,一旦特征的数量超过一定的比例时,就会导致分类器的性能降低;另一方面,在样本数量极其有限的情况下,用大量的特征来设计分类器无论是在计算的开销上还是分类器的性能上来看都是不合适的。因此,如何有效正确地解决上述的情况显得尤为重要。到现在为止,国外有很多的学者专家对这样的问题进行了研究,也提出了很多的算法和论文;但是,国内的研究还只是停留在用实验的方式来比较选取特征上面,所以,进行算法的改进是有必要的。并且,众多的特征选择算法对解决不同的实际问题往往有着不一样的结果,因此,如何针对特定的问题给出相对应的有效的解决方法仍是一个需要进一步解决的问题。

2. 毕业设计(论文)主要内容:

1了解特征选择的发展背景,基本概念和框架以及典型的特征选择方法:通过了解特征选择的基本概念与背景来了解该算法的优缺点,来分析基于特征选择算法的原理。本文提到了reliefF特征选择算法,该算法弥补了relief算法仅能处理二维数据的缺陷。该算法可以处理多类别问题和目标属性为连续值的回归问题。

2掌握基于距离度量的特征选择算法DFS(Distance-based Feature Selection)的原理和代码:本文介绍一个医学方面的实践案例,利用reliefF特征选择算法来做特征筛选,对高维数据进行降维,筛选出最优子集。然后利用K-means聚类算法再来将筛选出数据区分出相似度。并且为了验证预测模型的准确性,选取的数据集由两部分组成,一部分是实验数据集,另一部分作为预测对照。这样进行多次的比对分析之后取得的结果就是最优的数据集。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 主要参考文献

[1]特征选择算法研究综述. 毛勇,周晓波,夏铮,尹征,孙优贤.模式识别与人工智.2007.4

[2]特征选择算法综述. 计智伟,胡珉,尹建新.电子设计工程. 2011.09

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。