抓取主题的文章列表，还有抓取的技术要点_第4页

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们...

代码星球 ·2020-08-09

PhantomJS抓取中文文档乱码

使用PhantomJs抓取百度标题乱码varurl="http://www.baidu.com"varpage=require('webpage').create()page.open(url,function(status){vartitle=page.evaluate(function(){returndocume...

代码星球 ·2020-08-09

用Fiddler抓取手机APP数据包

Fiddler下载地址1.允许远程连接2.允许监听https3.重启Fiddler这步很重要，不要忘了4.手机配置用ipconfig命令查询当前PC的局域网IP将手机连接上同一个WIFI，并进行设置：iOS手机：设置>WIFI>点击进入连接上的WIFI，在最下面会有HTTP代理(默认情况下使关闭)，打开手动...

代码星球 ·2020-07-14

二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器

编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url='url'　　callback=页面处理函数　　使用时需要yieldRequest() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果...

代码星球 ·2020-07-09

SEO 网站抓取和收录的那些事

网站建好了，如何才能让搜索引擎收录网站？如果页面无法被搜索引擎收录，就意味着没有展示，也就无法竞争排名获取SEO流量了。本文将围绕抓取和收录亮点，从基本原理，常见问题和解决方法三个维度探讨搜索引擎优化。什么是抓取、收录网页抓取工具robots.txt文件介绍如何查看网站的收录情况设置网页不被搜索引擎索引搜索...

代码星球 ·2020-06-19

PHP抓取网络数据的6种常见方法

http://www.nowamagic.net/academy/detail/12220245http://www.nowamagic.net/academy/detail/12220245...

代码星球 ·2020-06-17

Node.js爬虫数据抓取 -- 问题总结

一返回的信息提示 Somethingwentwrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2.curl请求正常　　解决办法：为请求添加user-agent头，如取消上注释...

代码星球 ·2020-06-16

Node.js爬虫抓取数据 -- HTML 实体编码处理办法

cheerioDOM化并解析的时候1.假如使用了.text()方法，则一般不会有html实体编码的问题出现2.如果使用了.html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了类似这些因为需要作数据存储，所有需要转换Ха&#x...

代码星球 ·2020-06-16

Node.js爬虫数据抓取乱码问题总结

windows-1251编码比如俄语网站：https://vk.com/cciinniikk可耻地发现是这种编码所有这里主要说的是Windows-1251（cp1251）编码与utf-8编码的问题，其他的如gbk就先不考虑在内了~1.使用js原生编码转换但是我现在还没找到办法哈.. 如...

代码星球 ·2020-06-16

java使用htmlunit工具抓取js中加载的数据

htmlunit是一款开源的java页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。这个没有界面的浏览器，运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。说白了就是一个浏览器，这个浏览器是用Java写的无界面的浏览器，正...

代码星球 ·2020-06-15

scrapy抓取学院新闻报告

抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询.实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构.微信截图_2017051522304...

代码星球 ·2020-06-14

Scrapy爬虫：抓取大量斗图网站最新表情图片

第一次使用Scrapy框架遇到很多坑，坚持去搜索，修改代码就可以解决问题。这次爬取的是一个斗图网站的最新表情图片www.doutula.com/photo/list，练习使用Scrapy框架并且使用的随机useragent防止被ban，斗图表情包每日更新，一共可以抓取5万张左右的表情到硬盘中。为了节省时间我...

代码星球 ·2020-06-14

Python抓取学院新闻报告

任务抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询.实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构.这里我们发现想要抓到全部的新闻信...

代码星球 ·2020-06-14

Python抓取成都房价信息

Python里scrapy爬虫scrapy爬虫，正好最近成都房价涨的厉害，于是想着去网上抓抓成都最近的房价情况，顺便了解一下，毕竟咱是成都人，得看看这成都的房子我以后买的起不~话不多说，进入正题：任务抓取链家网（成都）的所有新房以及二手房价格、位置相关信息。实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'...

代码星球 ·2020-06-14

PHP批量抓取远程网页图片并存到本地实现方法和源码

做为一个仿站工作者，当遇到网站有版权时甚至加密的时候，WEBZIP也熄火，怎么扣取网页上的图片和背景图片呢。有时候，可能会想到用火狐，这款浏览器好像一个强大的BUG，文章有版权，屏蔽右键，火狐丝毫也不会被影响。但是作为一个热爱php的开发者来说，更多的是喜欢自己动手。所以，我就写出了下面的一个源码，php远...

代码星球 ·2020-06-13