python爬虫主题的文章列表，还有python爬虫的技术要点_第5页

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情

Scrapy框架它能够帮助提升爬虫的效率，从而更好地实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request异步调度和处理、下载器（多线程的Downloader）、解析器selector和twisted(异步处理)等。对于网站的内容爬取，其速度非常快捷。下面将使用...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（效率优化以及代码容错处理）

这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化，目的是为了提高爬虫效率。可以根据出发地同时调用多个CPU，每个CPU运行一个出发地的脚本，如果你的电脑有8个CPU，那么将会每次同时获取8个出发地的数据。代码如下：importtimeimpo...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（优化）

本博文主要是对我的这篇：https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。代码优化可以提高代码的可读性。importtimeimportjsonimportpymongoimportrequestsimporturllib.req...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据

首先观察、分析网站网址：https://touch.qunar.com 接下按F12进入浏览器开发者模式，并且点击自由行选项进入到自由行频道，如下图： RequestURL:https://d...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中

1、下载MongoDB官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：用API爬出天气预报信息

天气预报网址：https://id.heweather.com/，这个网站是需要注册获取一个个人认证后台密钥key的，并且每个人都有访问次数的限制，这个key就是访问API的钥匙。这个key现在是要自...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：爬虫攻防战

我们在开发者模式下不仅可以找到URL、FormData，还可以在Requestheaders中构造浏览器的请求头，封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Requestheaders下的User-Agent，因此我们只需要构造...

代码星球 ·2020-05-23

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据

importrequestsfrombs4importBeautifulSoupurl="http://www.cntour.cn/"strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,"lxml")#下面的参数由网站开发者模式中Co...

代码星球 ·2020-05-23

吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据

importrequestsurl='http://www.cntour.cn/'strhtml=requests.get(url)print(strhtml.text) URL...

代码星球 ·2020-05-23

吴裕雄--天生自然python学习笔记：python爬虫PM2.5 实时监测显示器

PM2.5对人体的健康影响很大，所以空气中的PM2.5实时信息受到越来越多的关注。Python的Pandas套件不但可以自动读取网页中的表格数据，还可对数据进行修改、排序等处理，也可绘制统计图表，对于信息抓取、整理以及显示是不可多得的好工具。将开发一个PM2.5实时监测显示器程序。本程序可以直接读取行指定网站上的PM2...

代码星球 ·2020-05-23

吴裕雄--天生自然python学习笔记：python爬虫与网页分析

我们所抓取的网页源代码一般都是HTML格式的文件，只要研究明白HTML中的标签（Tag）结构，就很容易进行解析并取得所需数据。HTML网页结构HTML网页是由许多标签（Tag）构成，标签需用。字符括起来。大部分标签成对出现，与开始标签对应的结束标签前多一个“／”字符，例如＜html＞＜斤itml...

代码星球 ·2020-05-23

Python爬虫获取天气预报并发到指定人的QQ邮箱

关于email模块的使用天气预报：https://tianqi.so.com/weather/#coding:utf-8importsmtplibfromemail.mime.textimportMIMETextfromemail.headerimportHeaderimportrequestsfrombs4impor...

代码星球 ·2020-05-11

Python爬虫模拟登录的github项目

项目地址：https://github.com/CharlesPikachu/DecryptLogin项目中文文档：https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/SupportList：Webs...

代码星球 ·2020-05-11

Python爬虫之定时抢购淘宝商品

importtimefromseleniumimportwebdriverimportdatetimeclassSpider:def__init__(self,url):self.__base_url=urlself.__headers={'User-Agent':'Mozilla/5.0(Wi...

代码星球 ·2020-04-29

Python爬虫之设置selenium webdriver等待

ajax技术出现使异步加载方式呈现数据的网站越来越多，当浏览器在加载页面时，页面上的元素可能并不是同时被加载完成，这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException（不可见元素异常）的情况出现，那么就会降低自动化脚本的稳定性，设置元素等待可改...

代码星球 ·2020-04-29