1. 毕业设计(论文)主要内容:
本论文研究在虚拟云环境下的信息分类系统,主要是对朴素贝叶斯(Naive Bayesian Model,NBM)算法的改进以及系统如何在虚拟云环境下实现的问题。
朴素贝叶斯算法具有分类稳定,对缺失数据不敏感的特点,适合对大容量的信息快速分类。
分类信息通过网络爬虫程序获取,选择NBM模型,通过优化特征项的选取,提出属性间相关度的概念,优化朴素贝叶斯概率计算公式,以此来提高分类的准确度。
2. 毕业设计(论文)主要任务及要求
本论文主要目标:(1)NBM模型的优化:本项目利用优化的NBM模型对庞大的互联网信息进行分类。在训练集处理时,优化特征项的选取;在计算NBM概率值时,提出属性间相关度的概念,弥补NBM计算概率值时“属性间必须独立”的假设条件所带来的影响,提高了分类的准确度。
(2)基于虚拟云环境的大数据处理:本项目最终在虚拟云环境中进行部署,利用Hadoop软件架构,在多个终端节点上同时对文本信息进行分类处理。
任务执行过程中的主要要求:1.查阅15篇相关文献(含近五年外文3篇),并每篇书写200—300字文献摘要(装订成册,带封面);2.认真填写周记,完成800字开题报告;3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);4.完成系统的编码与调试;5.完成10000字以上的毕业论文;6.进行论文答辩。
3. 毕业设计(论文)完成任务的计划与安排
(1)2016/1/11—2016/1/22:查阅参考文献,明确选题;(2)2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;(3)2016/3/8—2016/4/26:需求分析,算法或系统设计,分析、比较或实现等;(4)2016/4/27—2016/5/27:撰写论文初稿;修改论文,定稿并提交论文评审;(5)2016/5/28—2016/6/7:准备论文答辩。
4. 主要参考文献
[1]陈雅芳.中文文本分类方法研究[D].浙江大学.2010年[2]王博.文本分类中特征选择技术的研究[D].国防科学技术大学.2009年
[3]李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报(自然科学学报);2001年01期
[4] Calheiros R N, Ranjan R, Beloglazov A, et al. CloudSim: a toolkit for modeling and simulation of cloud computing environments and evaluation of resource provisioning algorithms[J]. Software: Practice and Experience, 2011, 41(1): 23-50.
以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。