为您找到搜索结果:1750个
Python爬虫实例(四)网站模拟登陆
一、获取一个有登录信息的Cookie模拟登陆下面以人人网为例,首先使用自己的账号和密码在浏览器登录,然后通过抓包拿到cookie,再将cookie放到请求之中发送请求即可,具体代码如下:#-*-coding:utf-8-*-importurllib2#构建一个已经登录过的用户的headers信息headers={"Host":"www.renren.com","Connection":"keep-alive","Upgrade-Insecure-Requests":"1","User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/54.0.2840.99Safari/537.36","Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8","Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",#添加抓包获取的cook...
Python爬虫实例(三)代理的使用
一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。在Python中,可以使用urllib2中的ProxyHandler来设置使用代理服务器,下面通过代码说明如何来使用代理: importurllib2#构建了两个代理Handler,一个有代理IP,一个没有代理IPhttpproxy_handler=urllib2.ProxyHandler({"http":"124.88.67.81:80"})nullproxy_handler=urllib2.ProxyHandler({})#定义一个代理开关proxySwitch=True#通过urllib2.build_opener()方法使用这些代理Handler对象,创建自定义opener对象#根据代理开关是否打开,使用不同的代理模式ifproxySwitch:opener=urllib2.build_opener(httpproxy_h...
Python爬虫实例(二)使用selenium抓取斗鱼直播平台数据
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数。过程分析:一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页,来到页面底部点击下一页,发现url地址没有发生变化,这样的话再使用urllib2发送请求将获取不到完整数据,这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页,这样就可以获取完整响应数据了。首先检查下一页元素,如下:<ahref="#"class="shark-pager-next">下一页</a>使用selenium和PhantomJS模拟点击,代码如下:fromseleniumimportwebdriver#使用PhantomJS浏览器创建浏览器对象driver=webdriver.PhantomJS()#使用get方法加载页面driver.get("https://www.douyu.com/directory/all")#class="shark-pager-next"是下一页按钮,click()是模拟点击driver.find_...
Python爬虫实例(一)爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取。思路分析:一、指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下http://tieba.baidu.com/f?kw=%E7%A7%A6%E6%97%B6%E6%98%8E%E6%9C%88?后面为查询字符串,“%E7%A7%A6%E6%97%B6%E6%98%8E%E6%9C%88“是贴吧名称“秦时明月”的url编码。这样我们就可以通过构造请求进入每一个贴吧了,代码实现如下:importurllib#贴吧url前半部分url="http://tieba.baidu.com/f?"value=raw_input("请输入要爬取的贴吧名称:")#将查询字符串转换为url编码形式key=urllib.urlencode({"kw":value})#组合完整的贴吧urlurl=url+key#查看完整urlprinturl运行程序,这里输入“天行九歌”作为演示,可以得到天行九歌吧的完整链接如下:http:/...
微信 公众号菜单 40055 invalid button url domain hint解决方法
微信公众号菜单40055invalidbuttonurldomainhint解决方法 出现这个问题的原因是,网址没有写全,需要写上 http:// 或者 https:// 就行了...
爬虫 爬取微信公众号
本文在网上找到有三种爬取方法1.使用订阅号功能里的查询链接,(此链接现在反扒措施严重,爬取几十页会封订阅号,仅供参考,)详情请访问此链接:https://cuiqingcai.com/4652.html2.使用搜狗搜索的微信搜索(此方法只能查看每个微信公众号的前10条文章)详情请访问此链接:https://blog.csdn.net/qiqiyingse/article/details/700501133.先抓取公众号的接口,访问接口获取全部文章连接(详细讲解此方法,如下:) 1>使用抓包工具Charles抓取公众号接口: 下载Charles请访问:https://www.charlesproxy.com/download/ 使用方法百度一大堆 废话少说,进入正题: 首先登陆微信(电脑,手机端都可以,Charles也可以抓取手机端的接口,不过需要设置,推荐登陆电脑客户端微信)点击订阅号,点进去需要爬取的微信公众号。点击右上角,有一个历史文章查看,准备好点击此处 运行装好的charles。然后点击查看历史文章的按钮,此时charles出现...
INFO: Ignoring response <503 http://www.xicidaili.com/nn>: HTTP status code is not handled or not allowed 用scrapy爬虫
用scrapy爬取http://www.xicidaili.com/nt/1(国内ip)是启动小蜘蛛一直报错,将网址换成百度是可以进入parse。错误:2018-04-1716:55:52[scrapy.core.engine]DEBUG:Crawled(503)<GEThttp://www.xicidaili.com/nn>(referer:None)2018-04-1716:55:53[scrapy.spidermiddlewares.httperror]INFO:Ignoringresponse<503http://www.xicidaili.com/nn>:HTTPstatuscodeisnothandledornotallowed 在setting中设置HTTPERROR_ALLOWED_CODES=[503]#忽略503页面 (不建议使用)HTTPERROR_ALLOWED_CODES默认: [] 忽略该列表中所有非200状态码的response。 重新启动小蜘蛛没问题了但实际问题仍没解决...
python+urllib+beautifulSoup实现一个简单的爬虫
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页.BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.1、安装python最新安装包3.5.2 下载地址:https://www.python.org/ 注:安装的时候注意勾选添加到PATH(系统环境变量)中 验证安装是否成功:在命令行cmd中输入python,如果进入到python的编辑环境,则安装成功。 2、安装urllib 在python命令行中输入:fromurllib.requestimporturlopen 显示如下:没有出现错误信息则安装成功 3、安装BeautifulSoup 在cmd中输入:pipinstallbeautifulsoup4 验证是否装成功:formbs4importBeautifulSoup 如果没有报错就是安装成功 4、urllib的用法介绍 (1)使用步骤...
Java微信公众号开发-外网映射工具配置
一、开发环境准备 1、一个微信公众号 2、外网映射工具(开发调试)如花生壳、ngrok工具 注:与微信对接的URL要具备以下条件a:在公网上能够访问b:端口只支持80端口 这里使用ngrok.cc: ngrok.cc它的服务基于ngrok实现,防止ngrok官网被墙不能访问,把服务器架设在了香港,不仅大大加快了大家的访问速度,还不怕被墙了,而且完全免费。官网地址::http://ngrok.cc/ 搭建步骤: 1、下载客户端 下载链接:http://www.ngrok.cc/index.php 获得以下两个文件: 2、注册并获取客户端Id 注册地址:http://ngrok.cc/index.php/login/index.html 配置映射信息: 获得客户端Id: 3、启动配置点击第一步下载获取的“Sunny-Ngrok启动工具”,粘贴第二步获取的客户端ID,回车即可。 这里http://parry.ngrok.cc/就是映射成功的域名 访问成功!很简单...
爬虫 ,中国商标网
fromwin32comimportclientimporttimeimportrandomfromlxmlimportetreedirver=client.DispatchEx("InternetExplorer.Application")dirver.Navigate('http://sbj.saic.gov.cn/sbcx/')dirver.Visible=1time.sleep(random.randint(2,8))dirver.Document.body.getElementsByTagName("p")[3].firstElementChild.click()dirver.Visible=1time.sleep(random.randint(8,12))dirver.Document.body.getElementsByTagName("tbody")[1].click()time.sleep(random.randint(10,20))foriindirver.Document.body.getElementsByTagName("input"):ifi.n...
外部浏览器点击跳转微信
"weixin://dl/stickers""weixin://dl/games""weixin://dl/moments""weixin://dl/add""weixin://dl/shopping""weixin://dl/groupchat""weixin://dl/scan""weixin://dl/profile""weixin://dl/settings""weixin://dl/general""weixin://dl/help""weixin://dl/notifications""weixin://dl/terms""weixin://dl/chat""weixin://dl/features""weixin://dl/clear""weixin://dl/feedback""weixin://dl/faq""weixin://dl/recommendation""weixin://dl/groups""weixin://dl/tags""weixin://dl/officialaccounts""weixin://dl/posts""weixin://dl/favo...
微信接口调用'updateTimelineShareData','updateAppMessageShareData' 的踩坑记录
6月份新版微信客户端发布后,用户从微信内的网页分享消息给微信好友,以及分享到朋友圈,开发者将无法获知用户是否分享完成。具体调整点为:(1)分享接口调用后,不再返回用户是否分享完成事件,即原先的cancel事件和success事件将统一为success事件。详情可参考微信JSSDK说明文档(2)在6月份新版微信客户端上,微信会提供新的自定义分享卡片标题、简介和配图的能力。该接口不支持获知用户是否分享出自己的网页。//可以使用jsApiList:['onMenuShareTimeline','onMenuShareAppMessage','updateTimelineShareData','updateAppMessageShareData']//享到朋友圈分享给朋友还是使用onMenuShareTimeline,onMenuShareAppMessage这两个接口吧,新接口不能调用,直接返回updateTimelineShareData:fail而且,config:下将debug:true,后只有iso,ipad的上会弹出调试窗口,安卓机子的不会有提示的,这个很坑人还有就是即使你调用了o...
微信测试号:config:invalid url domain
今天调试微信分享的时候,配置参数时一直提示config:invalidurldomain,网上找了一下,都说是appId和域名没有绑定。仔细看了下,有绑定没错。又猜测是不是二级域名的问题,因为是测试号所以不需要备案,也排除。 最后发现配置接口安全域名是不需要http://的,微信这也是够坑的。。转自:https://blog.csdn.net/yutian1993/article/details/53638905...
Python+ITchart实现微信中男女比例,城市分布统计并可视化显示
直接上代码: importitchatimportosimportcsvimportpandasaspdfrompyechartsimportBar,Pie,Geoimportshutilassh#根据index打印朋友的信息defprint_Info(friends):UserName=friends['UserName']NickName=friends['NickName']HeadImgUrl=friends['HeadImgUrl']ContactFlag=friends['ContactFlag']MemberCount=friends['MemberCount']RemarkName=friends['RemarkName']Sex=friends['Sex']Province=friends['Province']City=friends['City']MemberCount=friends['MemberCount']Signature=friends['Signature']print('---------------UserInfo-------------')p...
Python+ITchart实现微信机器人对指定的朋友和群自动回复
这里我主要用了3个机器人,可以切换。 1.图灵机器人 (傻的不行,一直在问别人问题,没有限制) http://www.tuling123.com 2.showApi上的图灵机器人 (感觉最聪明,可以识别微信表情,英文,中文等,但是因为我是普通会员,每天1000次调用) https://www.showapi.com/api/lookPoint/60 3.茉莉机器人 (功能丰富,但是只识别中文,不识别英文,微信表情) http://www.itpk.cn/robot.php 代码如下:fromitchat.contentimport*importitchatimportjsonimportrequestsfromShowapiRequestimportShowapiRequestimportosimporttimeimportdatetimeimporturllibimporturllib.request#调用图灵机器人的api,根据聊天消息返回回复内容deftuLing(info):appkey="************" #自己注册...