#python爬虫

吴裕雄--天生自然PYTHON爬虫:使用Scrapy抓取股票行情

Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理、下载器(多线程的Downloader)、解析器selector和twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。下面将使用...

吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(效率优化以及代码容错处理)

这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率。可以根据出发地同时调用多个CPU,每个CPU运行一个出发地的脚本,如果你的电脑有8个CPU,那么将会每次同时获取8个出发地的数据。代码如下:importtimeimpo...

吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(优化)

本博文主要是对我的这篇:https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。代码优化可以提高代码的可读性。importtimeimportjsonimportpymongoimportrequestsimporturllib.req...

吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据

首先观察、分析网站网址:https://touch.qunar.com 接下按F12进入浏览器开发者模式,并且点击 自由行 选项进入到自由行频道,如下图:        RequestURL:https://d...

吴裕雄--天生自然PYTHON爬虫:安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中

1、下载MongoDB官网下载:https://www.mongodb.com/download-center#community        上面这张图选择第二个按钮    上面这张图直接Next...

吴裕雄--天生自然PYTHON爬虫:用API爬出天气预报信息

天气预报网址:https://id.heweather.com/,这个网站是需要注册获取一个个人认证后台密钥key的,并且每个人都有访问次数的限制,这个key就是访问API的钥匙。          这个key现在是要自...

吴裕雄--天生自然PYTHON爬虫:爬虫攻防战

      我们在开发者模式下不仅可以找到URL、FormData,还可以在Requestheaders中构造浏览器的请求头,封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Requestheaders下的User-Agent,因此我们只需要构造...

吴裕雄--天生自然PYTHON爬虫:使用BeautifulSoup解析中国旅游网页数据

  importrequestsfrombs4importBeautifulSoupurl="http://www.cntour.cn/"strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,"lxml")#下面的参数由网站开发者模式中Co...

吴裕雄--天生自然python爬虫:使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据

importrequestsurl='http://www.cntour.cn/'strhtml=requests.get(url)print(strhtml.text)            URL...

吴裕雄--天生自然python学习笔记:python爬虫PM2.5 实时监测显示器

PM2.5对人体的健康影响很大,所以空气中的PM2.5实时信息受到越来越多的关注。Python的Pandas套件不但可以自动读取网页中的表格数据,还可对数据进行修改、排序等处理,也可绘制统计图表,对于信息抓取、整理以及显示是不可多得的好工具。将开发一个PM2.5实时监测显示器程序。本程序可以直接读取行指定网站上的PM2...

吴裕雄--天生自然python学习笔记:python爬虫与网页分析

我们所抓取的网页源代码一般都是HTML格式的文件,只要研究明白HTML中的标签(Tag)结构,就很容易进行解析并取得所需数据。HTML网页结构HTML网页是由许多标签(Tag)构成,标签需用。字符括起来。大部分标签成对出现,与开始标签对应的结束标签前多一个“/”字符,例如<html><斤itml...

Python爬虫获取天气预报并发到指定人的QQ邮箱

关于email模块的使用天气预报:https://tianqi.so.com/weather/#coding:utf-8importsmtplibfromemail.mime.textimportMIMETextfromemail.headerimportHeaderimportrequestsfrombs4impor...

Python爬虫模拟登录的github项目

  项目地址:https://github.com/CharlesPikachu/DecryptLogin项目中文文档:https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/SupportList:Webs...

Python爬虫之定时抢购淘宝商品

  importtimefromseleniumimportwebdriverimportdatetimeclassSpider:def__init__(self,url):self.__base_url=urlself.__headers={'User-Agent':'Mozilla/5.0(Wi...

Python爬虫之设置selenium webdriver等待

 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException(不可见元素异常)的情况出现,那么就会降低自动化脚本的稳定性,设置元素等待可改...
首页上一页...34567...下一页尾页