基于网络爬虫的网站页面更新监测系统任务书

 2022-01-12 21:16:41

全文总字数:1693字

1. 毕业设计(论文)主要内容:

1.引言(问题来源、现状、目标期望等);

2.关键技术(网络爬虫、知识图谱、自然语言处理);

3.算法设计;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

1.查阅相关的国内外资料,对国内外的研究现状加以分析;

2.根据论文的研究方向,查阅相应的文献资料。学习爬虫相关知识与概念、网站页面索引信息,数据比对方法,自然语言处理的常用算法等。

3.功能基本需求:定时爬取网站数据,通过对比先后爬取到的网站索引数据,捕获网页的变更信息及网页的特征信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

2019.12.30之前:完成毕业设计选题;

2020.02.18之前:结合选题和任务书的目标要求,完成开题报告撰写;

2020.05.10之前:完成系统的设计和实施、提交论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] 陈诚,廖桂平,史晓慧.个性化信息推送服务的用户模型研究[J].情报科学,2014,32(11):71-76 87.[2] Huang Jizhou, Ding Shiqiang, Wang Haifeng, Liu Ting. Learning to recommend related entities with serendipity for web search users. ACM Transactions on Asian and Low-Resource Language Information Processing, 2018, 17(3): 25:1--25:22.[3] Chen D, Yi C, Brownlow B N, et al. Real-Time or Near Real-Time Persisting DailyHealthcare Data Into HDFS and ElasticSearch Index Inside a Big Data Platform[J]. IEEE Transactions on Industrial Informatics, 2017, 13(2):595-606.[4] 黄晓斌,吴高.人工智能时代图书馆的发展机遇与变革趋势[J].图书与情报,2017(06):19-29.[5] 王振博. 基于游记的旅游信息垂直搜索引擎的设计与实现[D].重庆大学,2016.[6] 宋鸿浩. 面向金融领域的分布式垂直搜索引擎研究与实现[D].山东财经大学,2014.[7] 高玉民. 基于 Solr 的搜索系统设计与实现[D].华南理工大学,2015.[8] 于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(02):231-237.[9] 潘晓英,陈柳,余慧敏,赵逸喆,肖康泞.主题爬虫技术研究综述[J/OL].计算机应用研究:1-6[2019-04-07].https://doi.org/10.19734/j.issn.1001-3695.2018.11.0790.[10] 王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010,28(03):477-480.[11] 卢苇, 彭雅. 几种常用文本分类算法性能比较与分析[J].湖南大学学报: 自然科学版, 2007, 34(6): 67-69.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。