Tag: 爬虫

Python爬虫抓取纯静态网站及其资源(开发篇)

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 ( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 ) 进入开发 有了上面的基础知识,我们就可以进入开发环节了。 我们想实现的最终效果 本次我们的最终目的是写一个简单的python爬虫,这个爬虫能够下载一个静态网页,并且在保持网页引用资源的相对路径下下载它的静态资源(如js/css/images)。测试网站为http://www.peersafe.cn/index.html,效果图如下: 开发流程 我们的总体思路是先获取到网页的内容,然后利用正则表达式来提取我们想要的资源链接,最后就是下载资源。 获取网页内容 我们选用python3自带的urllib.http来发出http请求,或者你可以采用第三方请求库requests。 获取内容的部分代码如下: url = 'http://www.peersafe.cn/index.html' # 读取网页内容 ...

python爬取资源网站资源

如果你想批量的获取整个网站的资源,逐个打开网页进行下载,那样子耗时又耗力,因此python爬虫可以代替人去自动完成下载任务。话不多说,直接见代码: 一、导入模板 import re from bs4 import BeautifulSoup import requests 二、设置请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like ...

Python爬虫爬取电影网站种子,让你以后再也不寂寞

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者: imBobby 到了周末,写点简单加愉快的东西吧,下午健身回来,想看个电影,于是来到熟悉的网站: btbtt.me 我觉得这个网站中文资源比较全,而海盗湾就是英文资源全一些,今天做个电影资源爬虫吧,进入btbtt.me首页: 这浓烈的的山寨风格,有一丝丝上头,先观察一下,点进高清电影区,我的思路是进入高清电影区,逐个访问页面内的电影标签,并将电影详情页面的种子下载到本地,所以先观察一下: 发现电影详情页的URL都在class为subject_link thread-new和subject_link thread-old的标签下存储,接下来点进电影详情页看看: 发现下载链接存储在属性rel为nofollow的标签a中,点击一下下载链接试试看: 竟然还有一层,有点难受了,想靠标签筛选这个下载链接有点难受,但是可以观察到: 下载链接其实就是把URL内的attach换成了download,这就省了很多事儿啊~ 思路大概有了,那就写代码呗: import requests import bs4 import ...

python3爬取torrent种子链接

        本文环境是python3,采用的是urllib,BeautifulSoup搭建。         说下思路,这个项目分为管理器,url管理器,下载器,解析器,html文件生产器。各司其职,在管理器进行调度。最后将解析到的种子连接生产html文件显示。当然也可以保存在文件。最后效果如图。         首先在管理器SpiderMain()这个类的构造方法里初始化下载器,解析器,html生产器。代码如下。 def__init__(self): self.urls = url_manager.UrlManager() self.downloader ...

python实现自动化报表1

公司每天需要做一个报表,其中步骤也很简单,就是从网上上下载三个不同的表,然后分别将三个表中的数据塞到一个单独的表中,用这个单独表中写好的公式将这三张表的数据进行处理之后就是我想要的结果,熟练之后整个过程只需要5分钟,但是既然学了python,就想着用python实现以下: 实现了之后用代码也是5分钟,但是这个期间自己可以去干点其他的事情,啦啦啦~~~ 整个过程的需要的知识点实际上也是十分简单,主要是这三个知识点和一个注意点: 第一个知识点: 爬虫:用爬虫主要是实现爬取公司网站上的表格,主要用fiddler进行抓包,根据是判断是post请求还是get请求将表格从网站上爬取下来,储存成excel表格形式,用了request库。 第二个知识点: python和excel:讲数据爬取下来之后,如何将其存入已经存在excel的sheet呢,这个主要用的包是openpyxl,这个地方有一个需要注意的地方,openpyxl的版本必须是2.4.2,其余版本的就会出现错误。 第三个知识点: python和sql:有几个数必须是用sql从数据库中提取的,提取出来之后呢,将其插入到已经存在的excel的指定位置,用的sqlalcgemy和openpyxl。 一个注意点:用python从excel中提取数据并插入到另一个sql的时候,是先将其提取为DataFrame格式,然后在插入的,但是这个时候会将index作为单独的一个列插入,我再用openpyxl去删除sheet中的列是,居然提示sheet没有这个功能(实际上最近版本的openpyxl有这个删除列和移动单元格的功能,但是现在我指定opnepyxl的版本是2.4.2,所以不能实现这个功能了,所以DataFrame在插入sheet之前,先将DataFrame的第一列列为index,这样插入的内容就和实际的内容一致) import json import shutil import time import requests import pandas ...

“对比Excel”系列再添新成员,手把手教你用Python实现报表自动化!

作为一名数据分析师,在日常工作中或多或少都会涉及报表制作的工作。 虽然《对比 Excel,轻松学习 Python 数据分析》一书中介绍了数据分析涉及的一些基本操作,但更多是从分析层面出发的,比如如何处理异常值、如何进行可视化等。 在实际的报表制作中,会用到很多函数及格式设置,比如调整字体的大小、颜色等,所以张俊红老师出版了新作《对比Excel,轻松学习Python报表自动化》,这本书将围绕报表制作的流程,通过对比 Excel 的方式来讲解报表制作中每个环节对应的 Python 代码如何实现。 01 为什么要学习报表自动化 数据分析师的一项重要工作就是制作报表,不同数据分析师制作报表的工作量比重是不一样的,有的人比较多,有的人比较少。 数据分析师的核心价值其实不是做报表,而是通过报表去发现业务问题,从而提出优化建议。 但是如果制作报表耗费的时间太多,就会导致没有时间去做深入分析,毕竟人的精力是有限的。 所以我们要尽可能地实现报表自动化,从而留出更多的时间去做分析。 02 学习建议 学习 Python,关键是练习。 ...

Python 开发:设计一个简单的登录界面(附源码)

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 Python GUI编程:高清电影在线观看平台制作,全网电影免费看 https://www.bilibili.com/video/BV1tz4y1o7Yc/ 案例:设计一个用户登录界面 工具:python PyQt5 程序运行结果如下: (1)初始界面 (2)输入“用户名”和“密码”,点击“登录” (3)切换“管理员”和“普通用户”登录 (4)点击“退出”按钮后界面退出 设计程序如下: # -*- coding: utf-8 -*- from ...

Python办公自动化之常用函数与案例

如果说TRIM、CLEAN、RIGHT、LEFT和MID函数是文本的变形专家(只能对数据进行外观上的改变),那么TEXT函数则称得上不折不扣的化妆大师、美颜专家。 它可以根据数据的特点,按照我们预设的格式,改造字符串的样式,比如:日期转成星期、数字添加千分位、位数不同的编号统一成相同的编号、数字自动添加备注…… Text函数的基本语法 TEXT 函数将数值转换为按指定数字格式表示的文本。它可通过格式代码向数字应用格式,进而更改数字的显示方式。 TEXT(value,转换后的格式) 参数: value:可以是数值、计算结果为数字值的公式或对包含数字值的单元格的引用。 转换后的格式:可以是字符串、包含字符串的单元格引用、名称或公式。 作用:将指定单元格的内容转换成指定的格式。 下面通过一个案例说明TEXT函数的好用之处 将日期变为星期 比如有如下的表格,现要将日期中周六日的提取出来,如何操作? 你会怎么做呢?有个小伙伴说:使用自定义格式转换成星期的形势,然后再进行筛选就可以啦! 结果: 进行筛选时,发现并没有出现我们想要的星期,还是月份。因为虽然设置了格式,只是显示结果展示改变了,但是实际的内容还是日期。 这时候我们使用TEXT函数会更加方便,但是我们需要增加一列进行筛选。在日期后面添加一列。然后输入=TEXT(B2,"aaaa")回车,发现星期列都变成星期的格式了,此时对新增的星期列进行筛选。 附上一个对日期时间格式话的表格,上面👆使用到的aaaa表示中文星期几的全称,如果是aaa则是中文星期几的简称,也可以是dddd表示英文星期几的全程,那有没有ddd呢?大家可以试一下 灵活的占位符 什么是占位符?形象地说,占位符就是占据字符位置的符号,常用的数字占位符有0、#、?等,上一节中出现的y、m、d是日期占位符的种类。毫不夸张地说,只有理解了各种占位符的作用,才能真正选好TEXT函数的格式代码。 ...

学会Python后都能做什么?介绍五种Python的实用场景

如今,越来越多的人加入到学习Python的队伍当中。 有的学习者是设计师,学习Python可以帮助他们查找更多的海报案例;有的学习者是大学生,学习Python可以帮助他们更好地查阅论文资料;还有的学习者是已经在职场工作四五年的人,学习Python可以让他们更好地进行数据分析和汇总…… 确实,Python早已不是程序员的专属技能,随着Python更多的可能性被挖掘出来,大家对Python的兴趣越来越浓,这也是近年来Python越来越火的原因。 而在Python领域非常有研究的网友们,也在学习Python的过程中发现了Python的更多实用功能。 今天就来给大家介绍五种Python的实用场景,下面就让我们来看看吧! 1、Python智能裁切图片 生活中我们总是会遇到裁剪图片的问题,想要通过裁剪图片来保留图片中最关键或最重要的信息。 但一张两张通过手机来裁切就可以了,十张二十张在时间允许的情况下也可以。但是如果是一百张、二百张呢? 这就让人十分苦恼了,这个时候Python就派上用场了。运用Python相关模块可以智能裁切图片,成百上千张的图片运用Python就可以批量处理,So easy! 2、Python解数学方程 说到数学,大家就会想到计算和方程。尤其是对于很多理科生来说,从小学到大学都需要接触到数学,从方程组到二次曲线再到微积分,数学题成了很多人心中的痛。 其实,Python也可以解决数学题,是不是觉得很神奇呢?通过Python的相关模块,分分钟将那些绕来绕去的数学题轻轻松松解决。 3、Python提取电视剧人物关系 去年《庆余年》这部电视剧很火,自从上线之后天天都登上热搜榜。但剧中主角、配角关系复杂,想要从刚刚追剧就把人物关系理清真的太难了! 不过Python在理清剧中人物关系上也非常出色,只需要通过代码分析剧本中的人物的关系,然后进行剧本人物关系的提取就可以啦~ 运用这种方法,大家还可以提取《红楼梦》之中的人物关系! 4、Python解决租房 第一次在外地工作最让人头疼的是什么?工资、物价、租房问题一直都名列前茅。而关于租房问题,永远都是迎接新生活的头道难关。 在哪里住离公司近?哪里租房离地铁近、离超市近?哪里租房房租便宜?Python在租房问题上也可以帮忙。 ...

python自动化办公 简介

python自动化办公: 1、相关工具与环境的安装概要:     需要用到python(一种开发语言,和计算机对话的语言)、pycharm(python的语法编辑器,写代码的,用文本也可以写,但是不高效)、anaconda(用来管理python环境的,用来管理python语言的各种包,各个包之间的位置, 可以解决包的冲突问题,让环境更稳定, 让程序员可以安心些代码)           2、anaconda安装:(备注: 如果安装了Anaconda的话,会自动安装python的,所以再安装一个pycharm就行了) 2.1 官方下载(下载速度慢): 输入右侧地址: https://www.anaconda.com/products/individual 点击: dowloads ...

Python 打造办公自动化神器

试想一个这样的场景,当我们在办公时,比如浏览 Word、PPT 时,假如遇到一个不熟悉的英文词需要翻译,我们的最常的做法是复制该英文词到浏览器中按回车搜索,然后再将翻译结果复制回 Word 或者 PPT。 本场 Chat 我将带领大家动手打造一个翻译自动化神器,不需要打开翻译软件或者浏览器,只需要在 Word、PPT 界面 Ctrl C/V 即可(可参考 IDEA 的翻译插件),大大提高办公速度。 涉及的知识点主要包括: Python 爬虫的一般开发流程和模拟执行 JS ...

入门python3爬虫需要掌握的知识与技巧

近期学了几天的python爬虫,在一个人瞎摸索中吸取了很多经验,在此把自己的初学者学习的经验拿出来分享。 下面讲的是python3,没了解过python2,不过似乎有些地方两者区别很大。 入门python3爬虫需要对一些库和模块有一定的了解,还需学会查看网页源代码的技巧,并了解一些爬虫框架。 一、认识urllib库 urllib是用于获取网络资源的库,python3自带。 初学爬虫者,主要是掌握urllib库中request模块的一堆函数功能。 有必要的话,也可以学习一下error模块。 request模块一些常用到的函数 函数功能简介Request返回一个Request对象,因为对象有些常用的方法,故而必要的时候需要用到。urlopen通过直接给的URL或者Request对象化后的URL,返回一个含有该URL的网页源码的对象。ProxyHandler跟代理有关函数,搭建与代理的通信build_opener跟代理有关函数,创建一个opener对象install_opener安装opener 一些常用到的方法 方法功能简介read()用于读urlopen函数返回对象中的网页源码encode()编码decode()解码 编码解码还有这两种函数,str是关于编码的函数,bytes是关于解码的函数。 网页涉及到的编码经常有’utf-8’和’'gb18030’等。 一些编码解码的内容可以看这一篇博客——python3 中的编码和解码 二、认识一些模块 re模块 首先,需要了解的是 re模块——正则表达式模块。 正则表达式是什么?可以这么说,是用于快速从一大堆字符中快速找出想要的子字符串的一种表达方式。函数+表达方式=快速找出子字符串。 ...

Page 1 of 129 1 2 129