Python爬虫抓取纯静态网站及其资源(开发篇)
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 ( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 ) 进入开发 有了上面的基础知识,我们就可以进入开发环节了。 我们想实现的最终效果 本次我们的最终目的是写一个简单的python爬虫,这个爬虫能够下载一个静态网页,并且在保持网页引用资源的相对路径下下载它的静态资源(如js/css/images)。测试网站为http://www.peersafe.cn/index.html,效果图如下: 开发流程 我们的总体思路是先获取到网页的内容,然后利用正则表达式来提取我们想要的资源链接,最后就是下载资源。 获取网页内容 我们选用python3自带的urllib.http来发出http请求,或者你可以采用第三方请求库requests。 获取内容的部分代码如下: url = 'http://www.peersafe.cn/index.html' # 读取网页内容 ...