51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#爬取
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(效率优化以及代码容错处理)
这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率。可以根据出发地同时调用多个CPU,每个CPU运行一个出发地的脚本,如果你的电脑有8个CPU,那么将会每次同时获取8个出发地的数据。代码如下:importtimeimpo...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(优化)
本博文主要是对我的这篇:https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。代码优化可以提高代码的可读性。importtimeimportjsonimportpymongoimportrequestsimporturllib.req...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据
首先观察、分析网站网址:https://touch.qunar.com 接下按F12进入浏览器开发者模式,并且点击 自由行 选项进入到自由行频道,如下图: RequestURL:https://d...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然PYTHON爬虫:安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1、下载MongoDB官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮 上面这张图直接Next...
代码星球
·
2020-05-23
吴裕雄
天生
自然
PYTHON
爬虫
吴裕雄--天生自然python学习笔记:爬取我国 1990 年到 2017年 GDP 数据并绘图显示
绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取,也可能需从文件或数据库中获取。利用抓取网页数据技术,把我国1990年到2016年的GDP数据抓取出来,再利用MatplotUb进行绘图显示。经搜索发现,http://value500.com/M2GDP.html网页中有我们所需数据。 &nb...
代码星球
·
2020-05-23
吴裕雄
天生
自然
python
学习
操作excel文件爬取nvd.nist数据
#!/usr/bin/envpython#encoding:utf-8#@author:jackimportrandomfromtimeimportsleepimportpandasaspdfromopenpyxlimportload_workbookfromurllibimportrequestfromlxmlimp...
代码星球
·
2020-05-17
操作
excel
文件
爬取
nvd.nist
Scrapy:腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/步骤一、分析网站结构和待爬取内容以下省略一万字 步骤二、上代码(不能略了) 1、配置items.py1importscrapy234classHrTencentItem(scrapy.Item):5#definethefieldsforyour...
代码星球
·
2020-05-17
Scrapy
腾讯
招聘
整站
数据
quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分 项目创建1、进入到存储项目的文件夹,执行指令 scrapystartprojectquotetutorial ,新建一个项目quotetutoria...
代码星球
·
2020-05-17
quotes
整站
数据
爬取
mongo
爬取豆瓣电影
爬取步骤:#1、#找到url地址#url="https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0"#2、...
代码星球
·
2020-05-17
爬取
豆瓣
电影
爬取页面InsecureRequestWarning: 警告解决笔记
InsecureRequestWarning:UnverifiedHTTPSrequestisbeingmade.Addingcertificateverificationisstronglyadvised.See:https://urllib3.readthedocs.io/en/latest/advanced-us...
代码星球
·
2020-05-17
爬取
页面
InsecureRequestWarning
警告
解决
爬取图片
参考爬取思路代码如下:1importrequests2importre34#获取网页源码5url='http://www.ivsky.com/tupian/xiaohuangren_t21343/'6data=requests.get(url).text78#正则表达式三部曲9#<imgsrc="http://w...
代码星球
·
2020-05-17
爬取
图片
链家深圳租房信息爬取练习 附加源码
fromurllibimportrequestfromtimeimportsleepfromlxmlimportetreeimportcsv#importrandom#sleep(random.random(1)*2)随机秒数#参数部分#sz_url='https://sz.lianjia.com/zufang/'##...
代码星球
·
2020-05-17
链家
深圳租房
信息
爬取
练习
百度音乐爬取文件练习
importrequestsimportre#正则表达式库导入倒推部分下载文件的代码url='http://zhangmenshiting.qianqian.com/data2/music/6c03fa42a322f8ad3c78eebe9f2b4211/594781778/594781778.mp3?xcode=a9...
代码星球
·
2020-05-17
百度
音乐
爬取
文件
练习
python内涵段子爬取练习
#-*-coding:utf-8-*-fromurllibimportrequestasurllib2importre#利用正则表达式爬取内涵段子url=r'http://www.neihanpa.com/article/list_5_{}.html'headers={ 'User-A...
代码星球
·
2020-05-17
python
内涵
段子
爬取
练习
HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。下载地址: http://sourceforge.net/projects/htmlparser/ ...
代码星球
·
2020-05-12
HtmlParser
应用
使用
Filter
爬取
首页
上一页
...
2
3
4
5
6
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他