51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#python爬虫
吴裕雄--天生自然PYTHON爬虫:使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理、下载器(多线程的Downloader)、解析器selector和twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。下面将使用...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(效率优化以及代码容错处理)
这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率。可以根据出发地同时调用多个CPU,每个CPU运行一个出发地的脚本,如果你的电脑有8个CPU,那么将会每次同时获取8个出发地的数据。代码如下:importtimeimpo...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(优化)
本博文主要是对我的这篇:https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。代码优化可以提高代码的可读性。importtimeimportjsonimportpymongoimportrequestsimporturllib.req...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据
首先观察、分析网站网址:https://touch.qunar.com 接下按F12进入浏览器开发者模式,并且点击 自由行 选项进入到自由行频道,如下图: RequestURL:https://d...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1、下载MongoDB官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮 上面这张图直接Next...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:用API爬出天气预报信息
天气预报网址:https://id.heweather.com/,这个网站是需要注册获取一个个人认证后台密钥key的,并且每个人都有访问次数的限制,这个key就是访问API的钥匙。 这个key现在是要自...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬虫攻防战
我们在开发者模式下不仅可以找到URL、FormData,还可以在Requestheaders中构造浏览器的请求头,封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Requestheaders下的User-Agent,因此我们只需要构造...
代码星球
·
2020-05-23
爬虫
吴裕雄
天生
自然
PYTHON
吴裕雄--天生自然PYTHON爬虫:使用BeautifulSoup解析中国旅游网页数据
importrequestsfrombs4importBeautifulSoupurl="http://www.cntour.cn/"strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,"lxml")#下面的参数由网站开发者模式中Co...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然python爬虫:使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
importrequestsurl='http://www.cntour.cn/'strhtml=requests.get(url)print(strhtml.text) URL...
代码星球
·
2020-05-23
翻译
吴裕雄
天生
自然
python
吴裕雄--天生自然python学习笔记:python爬虫PM2.5 实时监测显示器
PM2.5对人体的健康影响很大,所以空气中的PM2.5实时信息受到越来越多的关注。Python的Pandas套件不但可以自动读取网页中的表格数据,还可对数据进行修改、排序等处理,也可绘制统计图表,对于信息抓取、整理以及显示是不可多得的好工具。将开发一个PM2.5实时监测显示器程序。本程序可以直接读取行指定网站上的PM2...
代码星球
·
2020-05-23
python
吴裕雄
天生
自然
学习
吴裕雄--天生自然python学习笔记:python爬虫与网页分析
我们所抓取的网页源代码一般都是HTML格式的文件,只要研究明白HTML中的标签(Tag)结构,就很容易进行解析并取得所需数据。HTML网页结构HTML网页是由许多标签(Tag)构成,标签需用。字符括起来。大部分标签成对出现,与开始标签对应的结束标签前多一个“/”字符,例如<html><斤itml...
代码星球
·
2020-05-23
python
吴裕雄
天生
自然
学习
Python爬虫获取天气预报并发到指定人的QQ邮箱
关于email模块的使用天气预报:https://tianqi.so.com/weather/#coding:utf-8importsmtplibfromemail.mime.textimportMIMETextfromemail.headerimportHeaderimportrequestsfrombs4impor...
代码星球
·
2020-05-11
Python
爬虫
获取
天气预报
发到
Python爬虫模拟登录的github项目
项目地址:https://github.com/CharlesPikachu/DecryptLogin项目中文文档:https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/SupportList:Webs...
代码星球
·
2020-05-11
Python
爬虫
模拟
登录
github
Python爬虫之定时抢购淘宝商品
importtimefromseleniumimportwebdriverimportdatetimeclassSpider:def__init__(self,url):self.__base_url=urlself.__headers={'User-Agent':'Mozilla/5.0(Wi...
代码星球
·
2020-04-29
Python
爬虫
定时
抢购
淘宝
Python爬虫之设置selenium webdriver等待
ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException(不可见元素异常)的情况出现,那么就会降低自动化脚本的稳定性,设置元素等待可改...
代码星球
·
2020-04-29
Python
爬虫
设置
selenium
webdriver
首页
上一页
...
3
4
5
6
7
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他