基于python的网络爬虫技术及数据分析任务书

 2021-10-20 19:17:21

1. 毕业设计(论文)的内容和要求

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它通过网页的链接地址来寻找网页,通过特定的搜索算法来确定路线,通常从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有网页都抓取完为止。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。

爬虫的第一个步骤就是对起始 URL 发送请求,以获取其返回的响应,其中包括以下四个方面:请求行、请求头、空行和请求体。第二个步骤就是获取特定 URL 返回的响应,以提取包含在其中的数据。同样的,响应其实是指完整响应报文,它包括四个部分:响应行、响应头、空行和响应体第三部便是解析网站,解析网页实质上需要完成两件事情,一是提取网页上的链接,二是提取网页上的资源。最终,我们可以对所获得的资源作进一步的处理,从而提取出有价值的信息。

课题研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 参考文献

[1] 杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先. 基于Scrapy的网络爬虫的设计与实现 [J]. 电子设计工程, 2019,(22):126~129[2] 熊慧芳. 网络爬虫关键技术的应用探讨 [J]. 计算机产品与流通, 2019, (09):173[3] 张誉曜,陈媛媛. 基于Python下的爬虫综述及应用 [J]. 中国新通信, 2019, (06):103[4] 刘石磊. 对反爬虫网站的应对策略 [J]. 电脑知识与技术, 2017, (15):25~27[5] 苏国新,苏聿. 基于Python的可配置网络爬虫 [J]. 宁德师范学院学报(自然科学版), 2018, (04):35~39[6] 孙建言,马雨欣,武文杰. 基于Python的网络爬虫系统 [J]. 电脑知识与技术, 2019, (26):67~69[7] 崔庆才. Python 3网络爬虫开发实战[M]. 北京: 人民邮电出版社, 2018.[8] 廖勇毅,丁怡心. 基于Python的股票定向爬虫实现 [J]. 电脑编程技巧与维护, 2019, (05):47~48[9] 常逢佳,李宗花,文静,常逢锦. 基于Python的招聘数据爬虫设计与实现 [J]. 软件导刊, 2019, (12): 136~139[10] 逄菲. 基于Python的分布式网络爬虫系统的设计与实现 [J]. 电子技术与软件工程, 2019, (23):21[11] 武永娇,黄宁. 基于Python技术电影口碑的研究 [J]. 计算机与网络, 2019, (09):48~49[12] 贾棋然. 基于Python专用型网络爬虫的设计及实现 [J]. 电脑知识与技术, 2017(12):53~55[13] 坎塔尔季奇. 数据挖掘[M]. 北京: 清华大学出版社, 2013.[14] 张明,蔡寅,曲保安,李惠玲,王杰民. 基于网络爬虫的地震舆情监测系统应用研究 [A]. 中国地球物理学会信息技术专业委员会互联网 地球物理研究论坛论文摘要集[C]. 中国山东枣庄:张明, 2016. 72-73.[15] 张岩. 大数据反爬虫技术分析 [J]. 信息系统工程, 2018, (08): 132[16] 魏程程. 基于Python的数据信息爬虫技术 [J]. 电子世界, 2018, (11):210~211[17] 朱筱筱. 关于网络爬虫监管的思考 [J]. 电子世界, 2019, (23):72~73[18] 刘清. 主题网络爬虫抓取策略的研究 [J]. 科技广场, 2017,(04):45~48

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。