爬虫四大金刚:requests,selenium,BeautifulSoup,Scrapy

1.什么是爬虫#1、什么是互联网?互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。#3、什么是上网?爬虫要做的是什么?我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。#3.1只不过,用户获取网络数据的方式是:浏览器提交请求->下载网页代码->解析/渲染成页面。#3.2而爬虫程序要做的就是:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 #3.1与3.2的区别在于:我们的爬虫程序只提取网页代码中对我们有用的数据#4、总结爬虫#4.1爬虫的比喻:如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据#4.2爬虫的定义:向网站发起请求,获取资源后分析并提取有用数...

python爬虫解决手机验证码问题

官网:https://tasker.joaoapps.com/网上也有中文版的,自行搜索1.打开tasker界面,点击右下加号  2.点击配置文件类型,选择事件  3.选择事件类型,点击电话  4.点击收到短信  5.在发件人和内容中填写过滤条件,比如:10086发来的,内容是验证码,然后直接点击左上角的返回按钮自动保存  6.然后新建任务,给任务起一个名字保存  7.选择操作类别网络  8.选择httppost方法  9.主要填写服务器ip和port,路径就是你服务器的api,数据我这里是formdata格式,%SMSRB就是短信内容(固定格式),内容类型就是你请求的数据类型,你也可以改成json格式    importflask,jsonfromflaskimportrequestimportioserver=flask.Flask(__name__)glob_msg=None@ser...

解决一起web 页面被劫持的案例

  现象      江西客户手机端连接wifi打开URL,页面上显示淘宝店铺广告,使用手机移动网络打开正常,其他地区正常。     二. 处理过程初步分析:3g.club项目使用了CDN,目前只有江西异常,其他地区无异常,说明问题范围仅在江西地区,根据业务人员反馈的问题现象,以及以往类似问题处理经验,该问题原因是可能是页面某个js被污染,导致污染的原因可能是dns解析被劫持检查江西dns对3gclub的解析情况:我们使用江西dns对3g.club进行解析,并让客户在本地ping域名返回结果,检查解析的IP是否是云端CDN节点,发现我们解析的IP和客户ping结果均正常,节点正确,排除dns解析被劫持原因向云端CDN技术反馈问题现象,协助排查问题统计出现此问题的客户端类型,发现手机自带的浏览器和匀加速功能的浏览器均出现问题,排除第三方浏览器云加速导致的问题;由于江西只有一家客户,而且用的是电信网络,所以暂时定位为出现问题的均是电信用户检查江西节点上页面文件,我们将请求江西节点返回的页面、请求北京地区...

python网络爬虫笔记(九)

4.1.1urllib2和urllib是两个不一样的模块    urllib2最简单的就是使用urllie2.urlopen函数使用如下    urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTPHTTPSFTP协议的URL链接地址,主演使用HTTP协议,他的参数以ca开头的都是跟身份验证有关,不常使用,data参数是post方法提交URL时使用,常用的是timeout参数,url参数是提交网络地址全称,前端是协议名,后端是端口号,timeout是超时时间设置,函数返回对象有三个额外使用方法,geturl()函数返回的response的url信息,常用于重定向的情况,info()函数返回的response的基本信息,getcode()函数返回的response的状态代码,200成功,404页面不存在,503服务器暂时不可用,刚开始,导入得模块...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(八)

一、pthon序列化json格式1、将python内置对象转换成json模块,dumps()方法返回的是一个str,内容是标准的JSON,dump()方法可以直接吧JSON写入一个file-like-object,要把JSON反序列化为python对象,使用loads()或者对立的方法,2、多线程和多进程 (multiprocessing)3、常见的模块 datetime模块包含一个datetime的类。通过fromdatetime importdatetime导入的才是datetime这个类 fromdatetimeimportdatetime      dt=datetime(215,4,15,21,12) dt.timestamp()collections模块 ,namedtuple是一个函数,它用来创建一个定义的tuple对象,规定了tuple的元素个数,并可以使用属性而不是缩影来引用tuple的元素。fromcollextionsimportnamedtup...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(六)

1、获取属性如果不存在就返回404,通过内置一系列函数,我们可以对任意python对象进行剖析,拿到其内部数据,但是要注意的是,只是在不知道对象信息的时候,我们可以获得对象的信息。2、实例属性和类属性的绑定,由于python是动态语言,根据类创建的实例可以任意绑定属性,给实例绑定属性的方法通过实例变量或者self变量。实例属性属于各个实例所有,互不干扰,类的属性属于类所有,所有实例共享一个属性,不要对实例属性和类属性使用相同的名字,否则将产生难以发现的错误。3、使用__slots__变量限制class实例添加的属性。就是限制给class绑定属性。classStudent(object):@propertydefscore(self):returnself._score@score.setterdefscore(self,value):ifnotisinstance(value,int):raiseValueError('scoremustbeaninteger!')ifvalue<0orvalue>100:raiseValueError('scoremustbetween0...
代码星球 代码星球·2020-04-07

java爬虫笔记

一、URl解释 1、URl统一资源定位符,UniformResourceLocation也就是说是Internet上信息资源的字符串,所谓的网页抓取就是把URl地址中指定的网络资源从网络中读取出来,保存到本地,2、java.net.URl类可以对相应的web服务器发出请求并且获得响应的文档,java.net.URl类有过一个默认的构造函数,使用URl的地址作为参数,构造URl对象。URLpageURl=newURl(path)接着可以获得URl对象类获得网络流,操作网络资源 INputStreamsteram=pageURL.openStraeam();在实际的网络韩静中比较复杂,只用java.net的API来模拟IE客户端的工作,代码量大,需要处理HTTP返回的状态码,设置HTTP代理,处理HTTPS协议,咋实际开发中使用Apache的HTTP客户端开源项目HTTPClient处理各种HTTP连接中的问题,只需要在项目中导入HTTPClient.jar包,就可以模拟IE来获取网页。    /////创建一个客户端 ...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(五)

一、python的类对象的继承1、所有的父类都是object类,由于类可以起到模块的作用,因此,可以在创建实例的时候,巴西一些认为必须要绑定的属性填写上去,通过定义一个特殊的方法__init__,绑定属性值、,注意__init__方法的第一个参数永远是self,表示创建的是实例本身,在__init__方法内部,就可以将各种属性绑定到self,因为self就是指向创建实例本身。有了__init__方法就不能在创建实例的时候传入空的参数。而且必须传入与__intit__方法匹配的参数。但是self不需要再次传入,python解释器自己会把实例变量传进。2、数据封装,面向对象编程最重要的是数据封装,在Student类中,每个实例都有各自的name和score这些数据,可以通过函数来访问这些数据。封装的另一个好处就是可以随时给类添加新的方法,如果让内部的属性不被外部访问,可以把属性的名称前加上两个下划线__,,,实例的变量名如果以__开头,就表示这是一个私有变量(private)只可以在内部访问。但是注意的一点就是变量名__xx__这样双划线开头的并且是结尾的,是特殊变量。特殊变量只可以直接访...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(四)

一、python中的高阶函数算法1、sorted()函数的排序  sorted()函数是一个高阶函数,还可以接受一个key函数来实现自定义的函数排序,key指定的函数作用于每个序列元素上,并根据key函数返回的结果进行排序。在默认的情况下对字符的排序是按照ASCII的大小比较的由于'Z'<'a',所以大写字母会在小写字母的前面。2、高阶函数可接受函数作为参数外,还可以把函数作为结果值返回,使用lazy_sum函数中定义了函数sum,内部函数sum可以引用外部函数lazy_sum的参数和局部变量,当lazy_sum返回函数sum时,相关变量参数都保存在反悔的函数中,这种称之为闭包()的结构,但是注意的一点是,当调用lazy_sum函数的时候每次都会返回一个新的函数,即使传入相同的参数:  3、匿名函数,关键字lambda表示匿名函数,冒号前面的x表示函数参数,有个限制就是只能有一个表达式,不同写return返回值是该表达式的结果,匿名函数的好处就是不用担心函数名的冲突,匿名函数是一个函数对象,可以把匿名函数赋值给一个变量,再利用变量来调用该函...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(三)

一、切片和迭代1、列表生成式2、生成器的generate,但是generate保存的是算法,所以可以迭代计算,没有必要,每次调用generate二、iteration循环1、凡是作用于for循环的对象都是Iterable的类型; 凡是作用于next()函数的对象都是Iteratior类型,表示一个惰性计算的序列;集合数据类型listdictstr是iterable但不是Iteratior对象。pythond的for循环就是不断地调用next()函数实现。 这里要说明的一点就是 listdictstr虽然不是Iterator但是是Iterable把他们变成Iterator可以使用iter()函数 2、函数式编程和函数编程不是同一回事。functionalprogramming其思想更接近于数学的思想计算,高阶函数Higher-orderfunction由于'score'没有被放到__slots__中,所以不能绑定score属性,试图绑定score将得到AttributeError的错误。使用__slots__要注意,__slots__定义的属性仅对...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(二)

一、函数调用的默认设置 1、defenroll(name,grnder,age=4,city='Shanghai'):        print(''name:',name)        print(''gender',gender)        print('city',city)        print(''age',age)     这样调用参数的时候只需要传入变化的参数  enroll('TianYaming','classONe'') 默认参数不符合的可以传入不同的参数。     enroll('TianYaming'...
代码星球 代码星球·2020-04-07

python网络爬虫笔记(一)

一、查询数据字典型数据 1、先说说dictionary查找和插入的速度极快,不会随着key的增加减慢速度,但是占用的内存大 2、list查找和插入的时间随着元素的增加而增加,但还是占用的空间小,内存浪费少indexmodules |next |previous | Python » EnglishFrenchJapanese dev(3.8)pre(3.7)3.6.43.52.7 Documentation » ThePythonStandardLibrary »  |ThePythoninterpreterhasanumberoffunctionsandtypesbuiltintoitthatarealwaysavailable.Theyarelistedhereinalphabeticalorder.  Built-inFunctions  abs()dict...
代码星球 代码星球·2020-04-07

HBase使用场景和成功案例 (转)

HBase 使用场景和成功案例有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。注意:不要自我限制,认为HBase只能解决这些使用场景。它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展。如果你有新想法,认为可以受益于HBase提供的功能,试试吧。社区很乐于帮助你,也会从你的经验中学习。这正是开源软件精神。HBase仿效了Google的BigTable,让我们开始探索典型的BigTable问题:存储互联网。 典型互联网搜索问题:BigTable发明的原因搜索是一个定位你所关心的信息的行为:例如,搜索一本书的页码,其中含有你想读的主题,或者网页,其中含有你想找的信息。搜索含有特定词语的文档,需要查找索引,该索引提供了特定词语和包含该词语的所有文档的映射。为了能够搜索,首先必须建立索引。Google和其他搜索引擎正是这么做的。他们的文档库是整个互联网;搜索的特定词语就是你在搜索框里敲入...

Redis应用案例,查找某个值的范围(转)

本文来自Redis在GoogleGroup上的一个问题,有一位同学发贴求助,说要解决如下的一个问题:他有一个IP范围对应地址的列表,现在需要给出一个IP的情况下,迅速的查找到这个IP在哪个范围,也就是要判断此IP的所有地。这个问题引来了Redis作者SalvatoreSanfilippo(@antirez)的回答。解答如下:例如有下面两个范围,10-20和30-40A_start10,A_end20B_start30,B_end40我们将这两个范围的起始位置存在Redis的SortedSets数据结构中,基本范围起始值作为score,范围名加start和end为其value值:redis127.0.0.1:6379>zaddranges10A_start(integer)1redis127.0.0.1:6379>zaddranges20A_end(integer)1redis127.0.0.1:6379>zaddranges30B_start(integer)1redis127.0.0.1:6379>zaddranges40B_end(integer)1&nbs...

案例:用Redis来存储关注关系(php版)

Redis提供了丰富的数据类型,比起关系型数据库或者简单的Key-Value存储(比如Memcached)来,Redis的数据模型与实际应用的数据模型更相近。比如下面说到的好友关系的存储,原作者使用了Redis的Sets(集合)数据结构。 具体存储方式如下:对于每一个用户,其关注关系存储两份列表,一份为此用户关注的人的UID列表,另一份为此用户粉丝的UID列表,这两个列表都使用Sets(集合)。比如对于用户ID为123的用户,graph:user:123:following保存的是其关注人的列表,graph:user:1:followed_by保存的是关注他的人的列表。下面是一个PHP代码的关注关系类,包括了常规的关注关系操作查询等方法,具体可看注释:<?/**Thisexamplewouldprobablyworkbestifyou'reusing*anMVCframework,butitcanbeusedstandaloneaswell.**ThisexamplealsoassumesyouareusingPredis,theexcellent*PHPRedisli...
首页上一页...3839404142...下一页尾页