python爬虫主题的文章列表，还有python爬虫的技术要点_第8页

python爬虫与数据采集

#python爬虫技术#1-1需要通过python的urllib或者request建立请求通信机制#1导入python的url库，请求库，用于与网页进行通信请求'''fromurllib.requestimporturlopenurl="https://www.python.org/"response=urlopen(...

代码星球 ·2020-04-04

12.Python爬虫利器三之Xpath语法与lxml库的用法

LXML解析库使用的是Xpath语法：XPath是一门语言XPath可以在XML文档中查找信息XPath支持HTMLXPath通过元素和属性进行导航XPath可以用来提取信息XPath比正则表达式厉害XPath比正则表达式简单 lxml使用方法：fromlxmlimportetreetext='''<d...

代码星球 ·2020-04-04

9.Python爬虫利器一之Requests库的用法（一）

requests官方文档：http://cn.python-requests.org/zh_CN/latest/user/quickstart.htmlrequest是一个第三方的HTTP库 1.发起请求发起GET请求非常简单，直接使用requests的get方法即可。比方说下面的代码获取百度首页的信息。1i...

代码星球 ·2020-04-04

8.Python爬虫实战一之爬取糗事百科段子

大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。1.抓取糗事百科热门段子2.过滤带有图片的段子1#coding:utf-82imp...

代码星球 ·2020-04-04

6.Python爬虫入门六之Cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那...

代码星球 ·2020-04-04

5.Python爬虫入门五之URLError异常处理

大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚request=urllib2...

代码星球 ·2020-04-04

4.Python爬虫入门四之Urllib库的高级用法

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这...

代码星球 ·2020-04-04

3.Python爬虫入门三之Urllib和Urllib2库的基本使用

怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒...

代码星球 ·2020-04-04

2.Python爬虫入门二之爬虫基础了解

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大...

代码星球 ·2020-04-04

1.Python爬虫入门一之综述

要学习Python爬虫，我们要学习的共有以下几点：Python基础知识Python中urllib和urllib2库的用法Python正则表达式Python爬虫框架ScrapyPython爬虫更高级的功能首先，我们要用Python写爬虫，肯定要了解Python的基础吧，万丈高楼平地起，不能忘啦那地基，哈哈，那么我就分享一...

代码星球 ·2020-04-04

python爬虫匹配实现步骤

importrequests,reurl='https://movie.douban.com/top250'urlcontent=requests.get(url).text#正则'''实现步骤:1,先逐个匹配字段2.对各个字段正则进行拼接3,实现整体抓取id:.*?(d+)</em.*?title:'title...

代码星球 ·2020-04-02

python爬虫

importreimporturllibdefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefgetImg(html):reg=r'height="d{3,}"src="(.+?.jpg)"'imgre=re.compile(reg)i...

代码星球 ·2020-04-02

Python爬虫：Xpath语法笔记

一、选取节点常用的路劲表达式：表达式描述实例 nodename选取nodename节点的所有子节点xpath(‘//div’)选取了div节点的所有子节点/从根节点选取xpath(‘/div’)从根节点上选取div节点//选取所有的当前节点，不考虑他...

代码星球 ·2020-04-02

python爬虫scrapy之登录知乎

下面我们看看用scrapy模拟登录的基本写法：　　注意：我们经常调试代码的时候基本都用chrome浏览器，但是我就因为用了谷歌浏览器（它总是登录的时候不提示我用验证码，误导我以为登录时不需要验证码，其实登录时候必须要验证码的），这里你可以多试试几个浏览器，一定要找个提示你输入验证码的浏览器调试。　　1、我们登录的时候，...

代码星球 ·2020-04-02

python爬虫scrapy之downloader_middleware设置proxy代理

一、背景：　　小编在爬虫的时候肯定会遇到被封杀的情况，昨天爬了一个网站，刚开始是可以了，在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器，刚开始是可以的，紧接着就被对方服务器封杀了。代理：　　代理，代理，一直觉得爬去网页把爬去速度放慢一点就能基本避免被封杀，...

代码星球 ·2020-04-02