python之网络爬虫

一、演绎自已的北爱          踏上北漂的航班,开始演奏了我自已的北京爱情故事 二、爬虫11、网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容。其次:从读取的内容中过滤关键字;这一步是关键,可以通过查看源代码的方式获取。最后:下载获取的html的url地址,或者图片的url地址保存到本地 2、针对指定的url来网络爬虫分析:第一步:大约共有4300个下一页。第二步:一个页面上有10个个人头像第三步:一个头像内大约有100张左右的个人图片指定的淘宝mm的url为:http://mm.taobao.com/json/request_top_list.htm?type=0&page=1这个页面默认是没有下一页按钮的,我们可以通过修改其url地址来进行查看下一个页面最后一页的url地址和页面展示如下图所示:点击任意一个头像来进入个人的主页,如下图3、定制的脚本1234567891011121314151617181920212223242...
代码星球 代码星球·2020-10-21

刚子扯谈:一起聊聊微信这孙子

文/刚子2013年7月28日「一起聊聊微信这孙子」我很早其实就开始了微信的涉入,记得那是2011年3月处吧!我当初的手机还是诺基亚塞班系统,当时手机塞班系统几乎占据了大部分的智能手机的市场。微信我推荐了几个同事开通,当时他们还说是帮助做推广吗?其实非也。2011年其实是微信的一个发展初期年,大部分人是非常排斥这样一块应用,因为他爹叫"腾讯",在他爹生他之前,QQ已经生长为一个彪悍的男人。所以大部分人的需求点还是主要依赖于这个彪悍男人的呵护!2012年属于微信的野蛮生长期,1亿、2亿到2013年初突破3亿,其实很多人都在说腾讯在移动互联网时期终于抓住了一根救命稻草,其实非也,纵观腾讯的布局,单靠手Q其实足以撑死那些击破脑袋天天在嗷嗷叫的互联网上市公司,如果给微信在2012年做个定位的话,可以说彪悍男人他兄弟的苏醒!毕竟在彪悍的男人也会经历从发展、壮大、到兴旺、到平静几个过程!微信的发展我认为与哥哥没关系、与他爹也没关系!其实与移动互联网的市场大环境有关系,在2011年我们的手机上网还是很封闭,没有WiFi只说,所有的用户走网络流量全部是移动GPRS,当然最好的是联通CDMA,但是联通给人...

刚子扯谈:未完待续的微信5.0

「未完待续的微信」无独有偶,很多思想上的爆发往往就是一瞬间,我是有特别感觉的!感觉其实更多的像是思想涌泉,而涌泉不会持续太久!影响感觉器官的有万万千,可以是一个动作、一个眼色、哪怕是眨眨眼眉,我们的神经都会有反应!这与个人的认知体系有关,大部分人的认知体系是被影响着在前行;其实微信到今天,大家都被影响,都被认知;而没有"被"字所思,这是让我们很失望的!扯一句蛋,人与动物的区别,或许大部分人能说出一大堆,其实我总结后发现无法有两条:一是有思想,在此基础上会使用工具,提高生产效率。二呢?高质量的交配繁衍下一代。生产繁衍越来越发高、精、尖等几个方向靠拢。说了一堆废话,现在重新回到微信这王八羔子上,继续吐槽!吐槽会集中一个点,便是我们真正要的是什么?微信定位很清晰,在我的认知里面有三点,社交、媒体和分享。社交是最清晰的定位,几乎所有使用微信的用户都可以与自己朋友发生通讯,可以建设自己的朋友圈,这个朋友圈的属性更真实,交际更透明。我认为这块属性是强与手Q哥哥的!位置的交际,那时一种基于位置发现陌生交际的功能,她不算美丽,因为此功能有个典型代表叫陌陌。但是在这块业务上行业内的炒作是最凶残的,也许你...
代码星球 代码星球·2020-10-21

手动清空微信PC客户端数据

微信PC客户端,用久了之后,会产生大量数据,包括聊天记录、聊天图片、视频等等,非常占存储空间,除非很重要的聊天记录或文件,建议额外保存,其他的可以手动删掉就好,可以节省存储空间.1、找到【C:UsersusernameDocumentsWeChatFileswechatusername】中的Msg目录,其中主要存放消息,也就是聊天记录的数据文件,将其删除即可。2、找到【C:UsersusernameDocumentsWeChatFileswechatusernameFileStorage】中的Image和Video目录,其中存放图片和视频,微信会给它们按月份存放,不需要的话就手动删除。3、找到【C:UsersusernameDocumentsWeChatFileswechatusernameFileStorage】中的File目录,其中存放接收或者发送出去的文件,微信会给它们按月份存放,不需要的话就手动删除。...

基于golang的爬虫实战

基于golang的爬虫实战前言爬虫本来是python的强项,前期研究过scrapy,也写过一些简单的爬虫小程序,但是后来突然对golang产生兴趣,决定写写爬虫练练手。由于本人golang萌新,有错误之处,欢迎指正。大致思路由于现在动态页面比较多,因此考虑通过WebDriver驱动Chrome等页面渲染完成再抓取数据。(刚开始是用Phantomjs,后来这货不维护了,而且效率不算高)一般爬虫程序运行在linux系统中,所以考虑Chrome的headless模式。数据抓取到之后保存到CSV文件中,然后通过邮件发送出去。不足之处因为需要渲染,所以速度会降低不少,即便是不渲染图片,速度也不是很理想。因为刚开始学习,所以多线程什么的也没加进去,怕内存会崩盘。没有将数据写入到数据库,放到文件里毕竟不是最终方案。需要的库github.com/tebeka/seleniumgolang版的selenium,能实现大部分功能。gopkg.in/gomail.v2发送邮件用到的库,很久不更新了,但够用。下载依赖包本打算用dep管理依赖,结果这货坑还挺多,未研究明白不敢误人,暂时放弃。通过goget下载依...
代码星球 代码星球·2020-10-02

Python爬虫笔记

本次学习的教学视频来自嵩天老师的网络爬虫教学,主要学习内容有requestsBeautifulSoupscrapye,目前除了scrapy其他刚好看完。并搬运实现了一些小项目如58同城租房信息爬取、淘宝搜索商品项目,现将从爬虫基本方法、实战和遇到的问题三个方面进行总结。  1.基本方法  首先就是requests库,是python最简易实用的HTTP库,是一个请求库。主要方法如下,其中requests.request()方法最常用,用于构造请求,是其他几种方法的总和。其余方法如get()获取HTML网页,head()获取网页head标签,post()pu()t用于提交对应请求,patch()进行局部修改,delete()提交删除请求。     着重介绍request.get()方法,requests.get(url,params=None,**kwargs)  其中url为页面链接,params为额外参数,字典格式,**kwargs包含了12个控制访问的参数。(paramsdatajsonheaderscookiesauthfilesimeoutproxiesallow_re...
代码星球 代码星球·2020-10-02

为什么越来越多人,拒绝在微信里办公?

越来越多的职场er,开始拒绝在微信里办公: 本来是用来和亲友互动的平台,但现在收到的消息全是各个工作群的!上班就得挂上PC端的微信,收到语音消息又得去拿手机,几十条语音全部听完,浪费时间不说还全是废话!手机丢了,之前的沟通记录就跟着丢了~丢手机现在感觉是要丢工作的节奏老板动不动就在微信里发文档,万一错过一份没保存,以后就找不到了! 以下两个场景,你要是从没遇到过...算我输!立即访问http://market.azure.cn...

一元就能搞定微信营销!你真的不试试?

一点不意外,当然是微信咯。交流、联系、叫车、付款、秀图、扫码、优惠打折……这些活动好像都可以通过微信搞定。基于此种情况,越来越多的商家也看到了其中的利益,并尝试着手通过微信营销提升业绩,下面的对话就成了常态:类似上面的情况估计好多小伙伴都可以对号入座了,那么很多人要问了,有没有既简单便利又实用高效的方式呢?  呐,福利来了: 通过1元试用账户提供的Azure资源(应用服务、数据库、认知服务等),与微信应用开发结合,快速实现自助微信营销工具的搭建。  使用场景:微信营销,如线下营销场景或线上互动。应用实例:某商场需要举办一场新品发布会,需要利用微信增加客户对产品的关注度。策划的方案是:商场工作人员将1件新品摆放在商场内的某处,用户需要找到该场景,并拍照发送,即可根据正确程度收到金额不等的现金红包。市场人员只需要几分钟,使用该系统设置活动流程并配置参数,即可发布该活动。当策划方案有变化时,市场人员可以轻松调整活动流程,例如将拍照环节改为答题游戏,或在发红包之前,再插入一个情绪识别的步骤作为红包参数等。整个过程无需二次开发,全程可视化操作。建...

一元治愈微信应用的「脸盲症」

「脸盲症」是一种经过正式确认的疾病,全名「面部辨识能力缺乏症」。古装剧里的姑娘戴上面纱少侠就认不出了?下次遇到这种情节别吐槽编剧啦,兴许这位少侠就患有脸盲症呢。其实在很多方面,计算机软件不止一次吊打了人类,除了最基本的计算、记忆、分析等,这次轮到面部识别能力了…有些童鞋可能已经知道,现在已经有手机平台实现在自带的相册应用中提供了人脸识别功能,可以自动分析手机里的所有照片,然后将包含同一个人的照片自动分组到一起。但也许你不知道,这样的功能其实早就有了,而且对于应用开发者来说,甚至不需要自己深入研究相关技术,在落地于世纪互联运营的 MicrosoftAzure 的认知服务的帮助下,只需要在应用中嵌入几行代码,就能治愈应用的「脸盲症」问题。 认知服务到底是什么?简单来说,微软认知服务是一系列提高各种应用程序智能程度的服务,只需要几行代码,就可以借助强大的算法开发应用程序。它们跨设备,跨平台,不论是 iOS、Android 或者 Windows,你都可以轻松完成配置,让不同平台上的应用程序获得视觉识别、语音识别、语言分析、知识分析、智...

Python爬虫利器一之Requests库的用法

以下内容大多来自于官方文档,本文进行了一些修改和总结。要了解更多可以参考官方文档利用pip安装  1$pipinstallrequests或者利用easy_install  1$easy_installrequests通过以上两种方法均可以完成安装。首先我们引入一个小例子来感受一下     Python 12345678importrequests r=requests.get('http://cuiqingcai.com')printtype(r)printr.status_codeprintr.encoding#printr.textprintr.cookies以上代码我们请求了本站点的网址,然后打印出了返回结果的类型,状态码,编码方式,Cookies等内容。运行结果如下  1234<class'requests.models.Response'>200UTF-8<RequestsCookieJar[]>怎样,是不是很方便。别急,...

H5页面在微信端的分享(分享到朋友圈,好友)

找到已有公众号的appid,根据这个appid和url向后端发起请求,拿到配置所需要的参数:timestamp、noncestr和signature。1、页面引入JS-SDK文件通过script标签,引入微信官网的JS-SDK文件<scriptsrc="https://res.wx.qq.com/open/js/jweixin-1.2.0.js"type="text/javascript"></script>2、基本配置wx.config({debug:false,//是否开启调试模式appId:appid,//appidtimestamp:timestamp,//时间戳nonceStr:noncestr,//随机字符串signature:signature,//签名jsApiList:['onMenuShareTimeline','onMenuShareAppMessage','onMenuShareQQ','onMenuShareWeibo','onMenuShareQZone']//需要使用的JS接口列表})3、使用wx.ready(function(){...

ios手机企业微信 NSURLErrorNetWorkConnection Lost

能接收消息,但进不了应用,切换一下公司解决问题...

企业微信JsAPI fail_permission denied一例解决方案

这个问题很奇怪,所有的签名数据都正确,通过控制台一模一样的数据,可能上一次还好好的,下一次可能就jsapi调用错误functionwxpageinit(app_id,Timestamp,Nonce_str,sign){wx.config({beta:true,debug:false,appId:app_id,timestamp:Timestamp,nonceStr:Nonce_str,signature:sign,jsApiList:["checkJsApi","chooseImage","previewImage","uploadImage","downloadImage","getNetworkType","onHistoryBack","selectEnterpriseContact",]});wx.ready(function(){try{wx.onHistoryBack(function(){returnhistoryreturn();})}catch(e){}})}functionsetwxsign(){$.ajax({url:"/xxxxxxx.action?v=1",/...

企业微信正常,微信中有错误提示: wx.agentConfig not defined

发现企业微信一个页面可以显示ww-open-data标签,但是微信不行,起初以为是渲染过早了,调试发现在微信中提示wx.agentConfignotdefined经过对比,发现是因为页面中少了一个js文件,在页面中增加如下js即可<scriptsrc="//open.work.weixin.qq.com/wwopen/js/jwxwork-1.0.0.js"type="text/javascript"></script>...

weui picker中有企业微信ww-open-data标签时点击处理

当weui中picker如果有ww-open-data标签时,点击该标签弹不出选择器,经过研究需要增加如下代码,以picker控件id是drpPerson为例$("#drpPerson").on('click',"ww-open-data",function(){$("#drpPerson").trigger("click");//或者$(this.parentElement).trigger("click");console.log('clickww-open-data');returnfalse;});重点是returnfalse,如果不加上面这段事件代码的话,实际上在点击ww-open-data时会相当于点了两次,弹出后马上就消失了,而且还会频繁生成dom元素不自动删除,看起来没弹出一样。...
首页上一页...2425262728...下一页尾页