大数据下的上市公司公告文本关键词挖掘应用技术任务书

 2021-11-10 22:05:28

1. 毕业设计(论文)主要目标:

随着因特网的迅猛发展,数据大爆炸,面对不断增长的网页数据,急需解决的问题是如何获取其中有价值的信息或者是所感兴趣的信息。本次设计的目标是设计一个程序,在指定栏输入关键字,程序能从一个网站发布的上市公司公告中提取标题或者内容与关键字相关的的信息并将标题显示在指定区域,点击标题可以查看相关内容。

2. 毕业设计(论文)主要内容:

主要分为三个部分:1.下载:这部分是需要把你想要搜索的范围的原始数据从网站上下载下来。(可以通过网络爬虫技术解决)

2.索引:前面搜索下载的是网页全文,里面的html标签是不需要被搜索的,所以要把数据清洗一下,提取出其中的重要内容。文本内容的预处理还需要分词 、去除无意义的停用词等。(建立索引有现成的库:LUCENE )

3.搜索:搜索是将根据查询词,搜索索引内匹配的内容,然后展示出来。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 主要参考文献

[1] 宋佳, 诸云强, 刘润达 . 一种基于Lucene改进的全文检索工具包[J]. 计算机工程与应用, 2013, 44(4):172-175.

[2] 吴海明. 基于Lucene的上市公司挖掘技术的研究与改进[D].广东:暨南大学, 2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。