51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#抓取
Python爬虫实例(二)使用selenium抓取斗鱼直播平台数据
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数。过程分析:一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页,来到页面底部点击下一页,发现url地址没有发生变化,这样的话再使用urllib2发送请求将获取不到完整数据,这时我们...
代码星球
·
2020-08-09
Python
爬虫
实例
使用
selenium
PhantomJS抓取中文文档乱码
使用PhantomJs抓取百度标题乱码varurl="http://www.baidu.com"varpage=require('webpage').create()page.open(url,function(status){vartitle=page.evaluate(function(){returndocume...
代码星球
·
2020-08-09
PhantomJS
抓取
中文
文档
乱码
用Fiddler抓取手机APP数据包
Fiddler下载地址1.允许远程连接2.允许监听https3.重启Fiddler这步很重要,不要忘了4.手机配置用ipconfig命令查询当前PC的局域网IP将手机连接上同一个WIFI,并进行设置:iOS手机:设置>WIFI>点击进入连接上的WIFI,在最下面会有HTTP代理(默认情况下使关闭),打开手动...
代码星球
·
2020-07-14
Fiddler
抓取
手机
APP
数据
二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数 使用时需要yieldRequest() parse.urljoin()方法,是urllib库下的方法,是自动url拼接,如果...
代码星球
·
2020-07-09
爬虫
Scrapy
二十
Python
分布式
SEO 网站抓取和收录的那些事
网站建好了,如何才能让搜索引擎收录网站?如果页面无法被搜索引擎收录,就意味着没有展示,也就无法竞争排名获取SEO流量了。本文将围绕抓取和收录亮点,从基本原理,常见问题和解决方法三个维度探讨搜索引擎优化。什么是抓取、收录网页抓取工具robots.txt文件介绍如何查看网站的收录情况设置网页不被搜索引擎索引 搜索...
代码星球
·
2020-06-19
SEO
网站
抓取
收录
那些
PHP抓取网络数据的6种常见方法
http://www.nowamagic.net/academy/detail/12220245http://www.nowamagic.net/academy/detail/12220245...
代码星球
·
2020-06-17
PHP
抓取
网络
数据
6种
Node.js爬虫数据抓取 -- 问题总结
一 返回的信息提示 Somethingwentwrong request模块请求出现未知错误其中,所用代码如下(无User-Agent部分)问题多次派查无果,包括: 1:postman请求正常 2.curl请求正常 解决办法:为请求添加user-agent头,如取消上注释...
代码星球
·
2020-06-16
Node.js
爬虫
数据
抓取
问题
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerioDOM化并解析的时候1.假如使用了.text()方法,则一般不会有html实体编码的问题出现2.如果使用了.html()方法,则很多情况下(多数是非英文的时候)都会出现,这时,可能就需要转义一番了类似这些因为需要作数据存储,所有需要转换Ха&#x...
代码星球
·
2020-06-16
Node.js
爬虫
抓取
数据
HTML
Node.js爬虫数据抓取乱码问题总结
windows-1251编码比如俄语网站:https://vk.com/cciinniikk可耻地发现是这种编码 所有这里主要说的是Windows-1251(cp1251)编码与utf-8编码的问题,其他的如gbk就先不考虑在内了~1.使用js原生编码转换 但是我现在还没找到办法哈.. 如...
代码星球
·
2020-06-16
Node.js
爬虫
数据
抓取
乱码
java使用htmlunit工具抓取js中加载的数据
htmlunit是一款开源的java页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正...
代码星球
·
2020-06-15
java
使用
htmlunit
工具
抓取
scrapy抓取学院新闻报告
抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询.实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构.微信截图_2017051522304...
代码星球
·
2020-06-14
scrapy
抓取
学院
新闻
报告
Scrapy爬虫:抓取大量斗图网站最新表情图片
第一次使用Scrapy框架遇到很多坑,坚持去搜索,修改代码就可以解决问题。这次爬取的是一个斗图网站的最新表情图片www.doutula.com/photo/list,练习使用Scrapy框架并且使用的随机useragent防止被ban,斗图表情包每日更新,一共可以抓取5万张左右的表情到硬盘中。为了节省时间我...
代码星球
·
2020-06-14
Scrapy
爬虫
抓取
大量
斗图
Python抓取学院新闻报告
任务抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询.实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构.这里我们发现想要抓到全部的新闻信...
代码星球
·
2020-06-14
Python
抓取
学院
新闻
报告
Python抓取成都房价信息
Python里scrapy爬虫scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~话不多说,进入正题:任务抓取链家网(成都)的所有新房以及二手房价格、位置相关信息。实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'...
代码星球
·
2020-06-14
Python
抓取
成都
房价
信息
PHP批量抓取远程网页图片并存到本地实现方法和源码
做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢。有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不会被影响。 但是作为一个热爱php的开发者来说,更多的是喜欢自己动手。所以,我就写出了下面的一个源码,php远...
代码星球
·
2020-06-13
PHP
批量
抓取
远程
网页
首页
上一页
...
2
3
4
5
6
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他