51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#python爬虫
python爬虫-使用cookie登录
什么是cookie?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面,这样就达到了我们的目的。U...
代码星球
·
2021-02-23
python
爬虫
使用
COOKIE
登录
Python爬虫实现统计博客园博文数量、阅读量、评论数
如何使用只需要将代码中的headurl替换以下格式,其中你只需要改变以下链接的阴影部分,阴影部分为你的博客园链接。类似:https://www.cnblogs.com/-wenli/default.html?page= 原理使用requests爬取网页,再使用BeautifulSoup...
代码星球
·
2021-02-14
Python
爬虫
实现
统计
博客园
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫BeautifulSoup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一...
代码星球
·
2021-02-12
Python
爬虫
利器
二之
Beautiful
python爬虫之小说爬取
废话不多说,直接进入正题。今天我要爬取的网站是起点中文网,内容是一部小说。首先是引入库fromurllib.requestimporturlopenfrombs4importBeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2Rf...
代码星球
·
2021-02-09
python
爬虫
小说
爬取
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰伦''''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlo...
代码星球
·
2021-02-02
python
爬虫
urllib
模块
url
python爬虫sslv3 alert handshake failure错误?
在python开头加:importrequests.packages.urllib3.util.ssl_requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS='ALL'...
代码星球
·
2021-01-09
python
爬虫
sslv3
alert
handshake
python爬虫:爬取网站视频
python爬取百思不得姐网站视频:http://www.budejie.com/video/新建一个py文件,代码如下:1234567891011121314151617181920212223242526272829303132333435#!/usr/bin/python# -*- codin...
代码星球
·
2020-11-21
python
爬虫
爬取
网站
视频
Python爬虫笔记
本次学习的教学视频来自嵩天老师的网络爬虫教学,主要学习内容有requestsBeautifulSoupscrapye,目前除了scrapy其他刚好看完。并搬运实现了一些小项目如58同城租房信息爬取、淘宝搜索商品项目,现将从爬虫基本方法、实战和遇到的问题三个方面进行总结。 1.基本方法 首先就是requests库,是...
代码星球
·
2020-10-02
Python
爬虫
笔记
Python爬虫利器一之Requests库的用法
以下内容大多来自于官方文档,本文进行了一些修改和总结。要了解更多可以参考官方文档利用pip安装 1$pipinstallrequests或者利用easy_install 1$easy_installrequests通过以上两种方法均可以完成安装。首先我们引入一个小例子来感受一...
代码星球
·
2020-09-25
Python
爬虫
利器
一之
Requests
Python爬虫小白入门(十四)Python 爬虫 – 提取数据到Pandas DataFrame
Pandas是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到PandasDataFrame中,可以进一步对数据进行分析,是一种常见做法。本章例子,将从豆瓣网站上抓取北美电影排行榜,并放进DataFrame中。豆瓣网站上的北美电影排行榜网址,北美电影...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
十四
Python爬虫小白入门(十三)Python 爬虫 – 使用CSS选择器
BeautifulSoup对象支持使用CSS选择器查找标签。这些选择器是CSS语言中使用的指定HTMLTag样式的方式。下面是一些例子:pa —在p标记中找到所有的a标签。bodypa —在body标记内的p标记内查找所有a标签。htmlbody —查找...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
十三
Python爬虫小白入门(十二)Python 爬虫 – 根据id与class查找标签
本章介绍怎么根据id与class查找标签。假设有下面的HTML文档:<html><head><title>Asimpleexamplepage</title></head><body><div><pclass="inner-tex...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
十二
Python爬虫小白入门(十一)Python 爬虫 – 根据类型查找标签
如要查找全部同类标签,可以使用find_all方法。importrequestsfrombs4importBeautifulSouppage=requests.get("https://kevinhwu.github.io/demo/python-scraping/simple.html")soup=Beautiful...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
十一
Python爬虫小白入门(十)Python 爬虫 – BeautifulSoup分析页面
我们已经抓取了一个HTML页面,接下来,我们使用BeautifulSoup来分析页面。importrequestsfrombs4importBeautifulSouppage=requests.get("https://kevinhwu.github.io/demo/python-scraping/simple.htm...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
BeautifulSoup
Python爬虫小白入门(九)Python 爬虫 – 使用requests抓取网页
Python中,requests库可用于向web服务器发出http请求,http请求有多种方式,例如,GET/POST/PUT/DELETE等等。这里将使用GET请求抓取页面:importrequestspage=requests.get("https://kevinhwu.github.io/demo/python-...
代码星球
·
2020-09-19
Python
爬虫
小白
入门
使用
首页
上一页
1
2
3
4
5
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他