爬虫--反爬--css反爬---大众点评爬虫

大众点评爬虫分析,,大众点评的爬虫价格利用css的矢量图偏移,进行加密只要拦截了css解析以后再写即可   #-*-coding:utf-8-*-"""CreatedonSatApr2709:28:502019@author:Administrator"""importreimportrequestsfrombs4importBeautifulSoupheaders={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3','Accept-Encoding':'gzip,deflate,br','Accept-Language':'zh-CN,zh;q=0.9','Cache-Control':'max-age=0','Connection':'keep-alive','Cookie':'cy=13;cye=wuxi;_lx_utm=utm_source%...

爬虫学习资料

爬虫https://www.cnblogs.com/hearzeus/tag/爬虫爬虫 https://www.cnblogs.com/qiyeboy/category/901764.html ...
代码星球 代码星球·2020-04-07

python 爬虫之 正则的一些小例子

正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符”来表达对字符的一种过滤逻辑。正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块常用的匹配模式w匹配字母数字及下划线W匹配f非字母数字下划线s匹配任意空白字符,等价于[f]S匹配任意非空字符d匹配任意数字D匹配任意非数字A匹配字符串开始匹配字符串结束,如果存在换行,只匹配换行前的结束字符串z匹配字符串结束G匹配最后匹配完成的位置匹配一个换行符匹配一个制表符^匹配字符串的开头$匹配字符串的末尾.匹配任意字符,除了换行符,re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符[....]用来表示一组字符,单独列出:[amk]匹配a,m或k[^...]不在[]中的字符:[^abc]匹配除了a,b,c之外的字符*匹配0个或多个的表达式+匹配1个或者多个的表达式?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式{n}精确匹配n前面的表示{m,m}匹配n到m次由前面的正则表达...

Python爬虫之Cookie和Session

关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Name/Value键值对返回给客户端浏览器,并将这些数据加上一些限制条件。在条件符合时,这个用户下次再访问服务器的时候,数据又被完整的带给服务器。因为http是一种无状态协议,用户首次访问web站点的时候,服务器对用户一无所知。而Cookie就像是服务器给每个来访问的用户贴的标签,而这些标签就是对来访问的客户端的独有的身份的一个标识,这里就如同每个人的身份证一样,带着你的个人信息。而当一个客户端第一次连接过来的时候,服务端就会给他打一个标签,这里就如同给你发了一个身份证,当你下载带着这个身份证来的时候,服务器就知道你是谁了。所以Cookie是存在客户端的,这里其实就是在你的浏览器中。Cookie中包含了一个由名字=值(name=value)这样的信息构成的任意列表,通过Set-Cookie或Set-Cookie2HT...
代码星球 代码星球·2020-04-07

Python爬虫之关于登录那些事

常见的登录方式有以下两种:查看登录页面,csrf,cookie;授权;cookie直接发送post请求,获取cookie上面只是简单的描述,下面是详细的针对两种登录方式的时候爬虫的处理方法这种例子其实也比较多,现在很多网站的登录都是第一种的方法,这里通过以github为例子:分析页面获取authenticity_token信息我们都知道登录页面这里都是一个form表单提交,我可以可以通过谷歌浏览器对其进行分析如上图我们找到了这个token信息所以我们在登录之前应该先通过代码访问这个登录页面获取这个authenticity_token信息获取登陆页面的cookie信息set-cookie这里是登录页面的cookie分析登录包获取提交地址当我们输入用户名和密码之后点击提交,我们可以从包里找到如上图的地址,就是post请求提交form的信息请求的地址:https://github.com/session请求的参数有:"commit":"Signin","utf8":"✓","authenticity_token":“KM6Q0mM9FtI95wYsI/WU3BnaMbYrmV60...

爬虫常用库之pyquery 库

pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是:http://packages.python.org/pyquery/。今天重新看了一遍整个文档,把它的一些使用方法整理了一下,做个记录。使用方法frompyqueryimportPyQueryaspq1.可加载一段HTML字符串,或一个HTML文件,或是一个url地址,例:d=pq("<html><title>hello</title></html>")d=pq(filename=path_to_html_file)d=pq(url='http://www.baidu.com')注意:此处url似乎必须写全 2.html()和text()——获取相应的HTML块或文本块,例:p=pq("<head><title>hello</title></head>")p('head').html()#返...
代码星球 代码星球·2020-04-07

爬虫 自动生成请求头教程

前情提要:  请求头是伪装操作者的一种方式.由于请求头的内容很多;找了到了一个很厉害的自动生成请求头的方式这个网站https://curl.trillworks.com/ 自动获取,自动生成真香 ...

网络请求 爬虫学习笔记 一 requsets 模块的使用 get请求和post请求初识别,代理,session 和ssl证书

前情提要:   为了养家糊口,为了爱与正义,为了世界和平,    从新学习一个爬虫技术,做一个爬虫学习博客记录  学习内容来自各大网站,网课,博客.  如果觉得食用不良,你来打我啊   requsets个人觉得系统自带的库不好用,以前学过自动自带的urblib和request库..想学隔壁转弯自学.学就从这个库开始学习    一:reuqests库的get和post请求   知识点:    >:1想要发送什么请求就调用什么请求的方法    >:2    response的属性    response.text()#获取文本    response.content()#以2进制的方式获取,需要docode()成对应编码    response.url()#返回url    response.encoding()#返回编码方式    response.status_code()#返回状态       二:get请求的例子1'''2get请求3'''4importrequests5#url='https://www.baidu.c...

python --爬虫--爬取百度翻译

importrequestsimportjsonclassbaidufanyi:def__init__(self,trans_str):self.lang_detect_url='https://fanyi.baidu.com/langdetect'#语言检测地址self.trans_str=trans_strself.headers={'User-Agent:Mozilla/5.0(Linux;Android6.0;Nexus5Build/MRA58N)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132MobileSafari/537.36'}defparse_url(self,url,data):resonpse=requests.post(url,data=data,headers=self.headers)returnjson.loads(resonpse.content.decode())#将字符串转化为字典defrun(self):#1获取语言类型#1.1准备post的url的地址post_datalang_det...

爬虫 处理封禁的常用方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的URL,并具备表单如何提交及JavaScript在浏览器如何运行的机制。想更多了解网络数据采集基础知识,可以参考文后的资料。在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的IP地址不知道什么原因直接被网站封杀,无法继续访问。原因可能是一些最复杂的bug,也可能是这些bug让人意想不到(程序在一个网站上可以正常使用,但在另一个看起来完全一样的网站上却用不了)。最有可能出现的情况是:对方有意不让爬虫抓取信息。网站已经把你定性为一个网络机器人直接拒绝了,你无法找出原因。接下来就介绍一些网络采集的黑魔法(HTTPheaders、CSS和HTML表单等...

python 爬虫 黑科技

1.最基本的抓站importurllib2content=urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。12345import urllib2proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()3.1`需要登录的情况cookie表单importurllibpostdata=urllib.urlencode({'username':'XXXXX','password':'XXXXX','continueURI':'htt...
代码星球 代码星球·2020-04-07

爬虫知识1

request库Response属性编码连接异常主要方法保存网页文件Robots实例requests模块非自带,需要单独下载。用于从Web抓取文件。>>>importrequests>>>res=requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')>>>type(res)<class'requests.models.Response'>>>>res.status_code==requests.codes.okTrue>>>len(res.text)178981>>>print(res.text[:250])TheProjectGutenbergEBookofRomeoandJuliet,byWilliamShakespeareThiseBookisfortheuseofanyoneanywhereatnocostandwithalmostnorestrictionswhatsoever....
代码星球 代码星球·2020-04-07

python --爬虫基础 --爬取今日头条 使用 requests 库的基本操作, Ajax

'''思路一:由于是Ajax的网页,需要先往下划几下看看XHR的内容变化二:分析js中的代码内容三:获取一页中的内容四:获取图片五:保存在本地使用的库1.requests网页获取库2.fromurllib.parseimporturlencode将字典转化为字符串内容整理拼接到url3.os操作文件的库4.fromhashlibimportmd5md5的哈希库5.frommultiprocessing.poolimportPool多线程库'''importrequestsfromurllib.parseimporturlencodefromrequestsimportcodesimportosfromhashlibimportmd5frommultiprocessing.poolimportPool#首先是获取一页的内容,观察XHR可得知加载图片是改变offset的值,观察XHR内容得知url和字典内容拼接的字符串为目标网页,判断网页是否响应,如果响应则返回json格式文件,如果不响应则#抛出defget_page(offset):params={'offset':offset,'fo...

python --爬虫基础 --爬猫眼top 100 使用 requests 库的基本操作

importrequestsimportreimportjsonimporttimedefget_page(url):#获取页数headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Safari/537.36'}#請求頭信息response=requests.get(url,headers=headers)ifresponse.status_code==200:#判断响应returnresponse.textelse:Nonedefparse_one_page(html):#整理代码pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>',re.S)#re.S是非换行匹配空白符,匹配换行内...

python 爬虫入门之爬小说

##第一步导包frombs4importBeautifulSoupimportrequestsimportsys##准备classdownloder(object):def__init__(self):self.server='http://www.biqukan.com'self.target='http://www.biqukan.com/1_1094/'self.names=[]#存放章节名字self.urls=[]#存放章节链接self.nums=0#章节数量defget_download_url(self):req=requests.get(url=self.target)html=req.textdiv_bf=BeautifulSoup(html)div=div_bf.find_all('div',class_='listmain')a_bf=BeautifulSoup(str(div[0]))a=a_bf.find_all('a')self.nums=len(a[15:])foreatchina[15:]:self.names.append(eatch.string)se...
首页上一页...3738394041...下一页尾页