爬虫入门【3】BeautifulSoup4用法简介

首先创建一个我们需要解析的html文档,这里采用官方文档里面的内容:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http://example.com/elsie"class="sister"id="link1">Elsie</a>,<ahref="http://example.com/lacie"class="sister&q...

爬虫入门【2】Requests库简介

使用Requests发送网络请求很简单#首先要导入requests库importrequests#返回一个Response对象r=requests.get('https://github.com/timeline.json')#由此可以看出来Requests的API十分简单,#post请求r=requests.post('http://httpbin.org/post')#Put请求,delete请求,head请求,options请求r=requests.put('http://httpbin.org/put')一般的get传递参数方法是将数据与url地址用?连起来。Requests库允许使用params关键字参数,以一个dict来提供这些参数。importrequestspayload={'key1':'value1','key2':'value2'}r=requests.get('http://httpbin.org/get',params=payload)print(r.url)#可以看出response对象由url属性http://httpbin.org/get?key1=va...

爬虫入门【1】urllib.request库用法简介

如何使用urllib库获取网络资料打开指定的URLurllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url参数,可以是一个string,或者一个Request对象。data一定是bytes对象,传递给服务器的数据,或者为None。目前只有HTTPrequests会使用data,提供data时会是一个post请求,如若没有data,那就是get请求。data在使用前需要使用urllib.parse.urlencode()函数转换成流数据。fromurllibimportrequestresp=request.urlopen('http://www.baidu.com')print(type(resp))#可以看出,urlopen返回的是一个HTTPResponse对象<class'http.client.HTTPResponse'>print(dir(resp))#resp具有的方法和属性如下,我们最常用的是read和rea...

php 爬虫框架

发现两款不错的爬虫框架,极力推荐下:phpspider一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider官方开发手册:https://doc.phpspider.org/QueryList使用jQuery选择器来做采集,告别复杂的正则表达式;QueryList具有jQuery一样的DOM操作能力、Http网络操作能力、乱码解决能力、内容过滤能力以及可扩展能力;可以轻松实现诸如:模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求;拥有丰富的插件,支持多线程采集以及使用PhantomJS采集JavaScript动态渲染的页面。官方下载地址:https://github.com/jae-jae/QueryList官方开发手册:https://doc.querylist.cc/无论从事什么行业,只要做好两件事就够了,一个是你的专业、一个是你的人品,专业决定了你的存在,人品决定了你的人脉,剩下的就是坚持,用善良專業和真诚赢取更多的信任。...
开发笔记 开发笔记·2020-03-11

Python爬虫: 用scrapy写的抓取网页内容的示例

scrapy是一个专门用于写爬虫的python框架。它将抓取页面内容,处理结果,执行做了很好的模块化处理。1.安装scrapy  准备环境:一定要安装pip,因为用sudoapt-get安装的scrapy版本很旧,会出现很多问题,在ubuntu16.0.4下执行sudoapt-getinstallscrapy好像是找不到package的。切记!不要偷懒,安装pip之后再装scrapy。sudoapt-getinstallpython-pipsudoapt-getinstallpython-devsudoapt-getinstalllibevent-devsudoapt-getinstalllibssl-dev 安装好pip之后,再执行sudopipinstallscrapy就可以了。(注意区分大小写,scrapy要全小写。)sudopipinstallscrapy2.简单的项目示例  1.在命令行创建scrapy项目:创建项目目录,并cd到该目录,执行命令:scrapystartproject项目名   &...
首页上一页...5152535455下一页尾页