#爬虫

爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表

首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。【插入图片,文章标题1】【插入图片,文章标题2】通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2",其href属性就指向这篇博文的地址。如下面代码所示:<aid=&qu...

爬虫实战【1】使用python爬取博客园的某一篇文章

博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步,获取某一篇文章。第二步,获取该博主所有文章的url列表。第三步,下载所有文章。第一次实战,我们以博客园为例。Cnblog是典型的静态网页,通过查看博文的源代码,可以看出很少js代码,连css代码也比较简单,很适合爬虫初学者来练习。 博客...

爬虫入门【8】Python连接MongoDB的用法简介

MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展。包含数据库,集合,文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB,并通过PyMongo操作MongoDB数据库。这里默认MongoD...

爬虫入门【7】Python-文件的读写和JSON

最重要的open()方法将返回一个file对象,经常使用的两个参数为open(filename,mode)其中,filename为file保存的地址,可以是本地地址,相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None...

爬虫入门【6】Selenium用法简介

一句话,自动化测试工具。它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面式浏览器。如果你在这些浏览器里面安装一个Selenium的插件,那么便可以方便地实现Web界面的测试。换句话说叫Selenium支持这些浏览器驱动。我们在Python里面安装Selenium的话,就可以调用浏览器来访问we...

爬虫入门【5】PyQuery简介

目前最新的版本是1.3,基于最新版本进行介绍。主要根据PyQuery的官方文档进行了更新。frompyqueryimportPyQueryaspqfromlxmlimportetreeimporturllibdoc=pq('<pid="hello"class="hello"...

爬虫入门【4】正则表达式用法简介

首先推荐使用r'string'来定义字符,免去转义字符的影响。#'.',点号,在默认模式中,匹配任何一个字符,除了新的行newline。如果DOTALL标记指定了,那么还可以匹配newline。#'^',匹配字符串的开始#'$',匹配字符串的结束。比如foo匹配foo或者foobar,但是foo$只能匹配到foo。#'...

爬虫入门【3】BeautifulSoup4用法简介

首先创建一个我们需要解析的html文档,这里采用官方文档里面的内容:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><p...

爬虫入门【2】Requests库简介

使用Requests发送网络请求很简单#首先要导入requests库importrequests#返回一个Response对象r=requests.get('https://github.com/timeline.json')#由此可以看出来Requests的API十分简单,#post请求r=requests.post...

爬虫入门【1】urllib.request库用法简介

如何使用urllib库获取网络资料打开指定的URLurllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url参数,可以是一个string,或者一个Request对象。d...

php 爬虫框架

发现两款不错的爬虫框架,极力推荐下:phpspider一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider官方开发手册:https://doc.phpspider.org/QueryList使用jQuery选择器来做采集,告别复杂的正则表达式;QueryL...
开发笔记 ·2020-03-11

Python爬虫: 用scrapy写的抓取网页内容的示例

scrapy是一个专门用于写爬虫的python框架。它将抓取页面内容,处理结果,执行做了很好的模块化处理。1.安装scrapy  准备环境:一定要安装pip,因为用sudoapt-get安装的scrapy版本很旧,会出现很多问题,在ubuntu16.0.4下执行sudoapt-getinstalls...

用C++爬取网页

  做了好几天,终于写出来了,以前没有想到过,用C++也可以爬取网页,经过这么多天的努力终于做好了,解决了乱码问题。从中学到很多,小到一个函数的参数,达到如何使用一个函数。          还有C+...
开发笔记 ·2020-03-01
首页上一页...2728293031下一页尾页