基于python的异构新闻网站爬虫系统的设计与实现任务书

 2022-01-21 21:17:14

全文总字数:3460字

1. 毕业设计(论文)的内容和要求

自从互联网问世以来,经过多年的发展,互联网站点的数量在不断地增长,互联网上的信息也在爆炸式增加,然而,由于商业因素等问题,这些网站在为我们提供有价值的信息的同时,还会包含其他信息,例如广告或者其他网站的链接。

链接可能是文字,图片等等。

这些相对于正文内容无用的信息会降低我们阅读效率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 实验内容和要求

1、内容:着眼于大数据时代,根据当今社会的需求,设计并实现一个基于Python、Django、HTML、CSS、JavaScript、Json等的高效、实用的异构新闻网站爬虫系统。

本系统实现对新闻精准快速提取正文内容的目的,根据用户输入的关键词,先进行首次爬取,对搜索结果页面中的广告页面等无效页面进行筛除,再对搜索结果的多个异构网页进行二次爬取,将获取的内容存入本地,进行数据分析,实现数据可视化等操作,便于用户快速获得并理解所需信息,提升了系统的高效性和可用性。

2、要求: (1)系统应能够完成系统设计方案的所有功能点,确保前端页面有良好的用 户交互体验。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 参考文献

[1] Netcraft:There are over 1.6 billion Websites in the World Wide Web (WWW). [EB/OL]. [2008-03-28].http://it.hexun.com/2008-03-28/104849372.html.

[2] The indexed web contains at least 21.7 billion pages[EB/OL].[2009-11-11].http//www.worldwidewebsize.com/index.php?lang=EN.

[3] CNNIC thirty-first Internet Report[EB/OL].[2013-01-15].http//www.cnnic.net.cn/gywm/shzr/shzrdt/201301 /t20130115_38518.htm.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 毕业设计(论文)计划

2021.1.10-2021.2.28 查阅参考文献,了解课题要求,完成开题报告 2021.3.1-2021.3.7 完成课题开发方面的总体设计方案 2021.3.8-2021.3.15 完成各功能模块的详细设计方案 2021.3.16-2021.3.23 初步完成Web方面整个系统的编写与实现 2021.3.24-2021.4.7 完成算法模型的雏形 2021.4.8-2021.4.23 按照需求设计算法流程图以及关于算法的初步想法 2021.4.24-2021.5.1 完善算法实现与模块测试 2021.5.2-2021.5.9 Web应用与深度学习模型对接 2021.5.10-2021.5.12 系统优化及软件测试 2021.5.13-2021.5.19 完成毕业设计论文的撰写工作 2021.5.20-2021.5.30 完成论文的初稿,并通过电子邮件发给指导老师初审 完成英文翻译2021.5.31-2021.6.3 按指导老师意见修改论文并定稿打印装订 递交论文和英文翻译2021.6.4- 准备毕业论文的答辩,包括答辩演示文稿等

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。