爬虫实战【1】使用python爬取博客园的某一篇文章

博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步,获取某一篇文章。第二步,获取该博主所有文章的url列表。第三步,下载所有文章。第一次实战,我们以博客园为例。Cnblog是典型的静态网页,通过查看博文的源代码,可以看出很少js代码,连css代码也比较简单,很适合爬虫初学者来练习。 博客园的栗子,我们的目标是获取某个博主的所有博文,今天先将第一步。 举个栗子,我们参考‘农民伯伯’的博客文章吧,哈哈。他是我关注的一个博主。http://www.cnblogs.com/over140/p/4440137.html这是他的一篇名为“【读书笔记】长尾理论”的文章。我们如果想要存储这篇文章,需要保存的内容首先是文章的标题,再就是文章的正文。 文章的标题怎么获取的?先看一下文章标题在网页源代码中的位置是如何的。  可以看出来,标题的文字内容是包含在一个a标签里面的,我们将这个标签打印出来:<aid="cb_post_title_url"class="postTitle2"h...

爬虫入门【8】Python连接MongoDB的用法简介

MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展。包含数据库,集合,文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB,并通过PyMongo操作MongoDB数据库。这里默认MongoDB已经安装好啦,安装教程可以参考:http://www.yiibai.com/mongodb/mongodb_environment.html感谢易百教程~~~~~目前最新版本为3.5.1。请注意不要单独安装bson包了,否则会与PyMongo不兼容。使用PyMongo时,第一步是运行mongod实例创建一个MongoClient,代码如下:当然,在使用代码测试之前,请务必保证MongoDB服务已经打开,否则连接不上的~~~~frompymongoimportMongoClientclient=MongoClient()#这是设置连接默认主机和端口,也可以明确指定主机和端口frompymongoimportMongoClient#client=MongoClient()c...

爬虫入门【7】Python-文件的读写和JSON

最重要的open()方法将返回一个file对象,经常使用的两个参数为open(filename,mode)其中,filename为file保存的地址,可以是本地地址,相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None,encoding=None,errors=None,newline=None,closefd=True)file就是要操作的文件的地址,这个文件如果不存在,会创建;如果存在会打开;mode参数:r以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。rb以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。r+打开一个文件用于读写。文件指针将会放在文件的开头。rb+以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。w打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。wb以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。w+打开一个文件用于读写。如果该文...

爬虫入门【6】Selenium用法简介

一句话,自动化测试工具。它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面式浏览器。如果你在这些浏览器里面安装一个Selenium的插件,那么便可以方便地实现Web界面的测试。换句话说叫Selenium支持这些浏览器驱动。我们在Python里面安装Selenium的话,就可以调用浏览器来访问web界面了。Selenium调用web需要由对应的浏览器驱动来支持。首先要确认自己的系统版本,我安装的是win10,在系统设置里面查询一下自己的版本号。本来想下载Chrome或者FireFox的驱动,但是Selenium的官网点进去想下载都困难。。。。----------------------------我是华丽的分割线--------------------------------------------------------突然又下好了,地址为http://www.seleniumhq.org/download/,Chrome和Firefox的。但是由于WebDriver的版本问题,打开还是有些困难,回头再弄把。。先用Edge。-------------------...

爬虫入门【5】PyQuery简介

目前最新的版本是1.3,基于最新版本进行介绍。主要根据PyQuery的官方文档进行了更新。frompyqueryimportPyQueryaspqfromlxmlimportetreeimporturllibdoc=pq('<pid="hello"class="hello"></p>')#解析文档的基本方法p=doc('p')#获取p标签print(p.attr('id'))#获取p标签的id属性的值p.attr('id','plop')#改变p标签的id属性的值为plopprint(p.attr('id'))p.attr.id='snow'#使用python的方式改变id属性print(p.attr.id)p.attr['id']='ola'print(p.attr['id'])p.attr(id='hello',class_='hello2')print(p)helloplopsnowola<pid="hello"class="hello2"/>p.add_class...

爬虫入门【4】正则表达式用法简介

首先推荐使用r'string'来定义字符,免去转义字符的影响。#'.',点号,在默认模式中,匹配任何一个字符,除了新的行newline。如果DOTALL标记指定了,那么还可以匹配newline。#'^',匹配字符串的开始#'$',匹配字符串的结束。比如foo匹配foo或者foobar,但是foo$只能匹配到foo。#'*',匹配0个或者多个字符,比如ab*,可以匹配a,ab,abbbb等#'+',匹配1个或者多个字符,比如ab+,可以匹配ab,或者abbbb#'?',匹配0或者1个字符,比如ab?只能匹配a或者ab。#贪婪模式,*?+,都是贪婪模式的,会尽可能多的匹配字符,在后面加上一个?则会变为非贪婪模式,尽可能匹配少的字符。#我们一般用非贪婪模式。#{m},指定匹配的数量,比如a{6}表示将匹配6个a字符,而不是5个,准确匹配。#{m,n},匹配在m~n个字符之间,包含m和n,比如a{3,5}将匹配3-5个a字符,一般会取上限来匹配。#如果不指定m或者n,则表示没有上限,下限不能低于0个#{m,n}?,非贪婪模式的匹配,尽可能匹配少,取下限m来匹配。#[],用于创造一个字符的集合,...

爬虫入门【3】BeautifulSoup4用法简介

首先创建一个我们需要解析的html文档,这里采用官方文档里面的内容:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http://example.com/elsie"class="sister"id="link1">Elsie</a>,<ahref="http://example.com/lacie"class="sister&q...

爬虫入门【2】Requests库简介

使用Requests发送网络请求很简单#首先要导入requests库importrequests#返回一个Response对象r=requests.get('https://github.com/timeline.json')#由此可以看出来Requests的API十分简单,#post请求r=requests.post('http://httpbin.org/post')#Put请求,delete请求,head请求,options请求r=requests.put('http://httpbin.org/put')一般的get传递参数方法是将数据与url地址用?连起来。Requests库允许使用params关键字参数,以一个dict来提供这些参数。importrequestspayload={'key1':'value1','key2':'value2'}r=requests.get('http://httpbin.org/get',params=payload)print(r.url)#可以看出response对象由url属性http://httpbin.org/get?key1=va...

爬虫入门【1】urllib.request库用法简介

如何使用urllib库获取网络资料打开指定的URLurllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url参数,可以是一个string,或者一个Request对象。data一定是bytes对象,传递给服务器的数据,或者为None。目前只有HTTPrequests会使用data,提供data时会是一个post请求,如若没有data,那就是get请求。data在使用前需要使用urllib.parse.urlencode()函数转换成流数据。fromurllibimportrequestresp=request.urlopen('http://www.baidu.com')print(type(resp))#可以看出,urlopen返回的是一个HTTPResponse对象<class'http.client.HTTPResponse'>print(dir(resp))#resp具有的方法和属性如下,我们最常用的是read和rea...

C#基础——winform应用上传图片到SQLServer数据库

前言之前通过winform与SQLServer的交互一直局限于文本、数字等信息,都可以通过string的方式来传输,但是比如音乐、图片等特殊格式的文件要如何与SQLServer数据库进行交互呢?今天主要讲通过文件流的方式,将特殊文件转换成二进制,然后存储到数据库中。在实际的应用中,如果文件较大或者较多,直接存储在数据中会造成一定的压力,可以转为保存文件名,然后在实际使用的地方调用改文件名对应的文件。主要内容上图为图片上传winform的内容。1、选择图片按钮,功能为通过对话框选择要上传的文件,并将该文件在下面的pictureBox中显示出来。具体代码如下:privatevoidbtn_Choose_Click(objectsender,EventArgse){UserMethod.ShowPic(this.pictureBox1);}1publicstaticvoidShowPic(PictureBoxpicBox)2{3OpenFileDialogofd=newOpenFileDialog();4ofd.InitialDirectory=@"E:";5ofd.Filter="Imag...

JSP 数据库连接类 MySql数据库

数据库连接类的主要功能是连接数据库并且获得连接对象,以及关闭数据库。通过创建该类的实例,调用其中的方法,以避免重复操作。1packagechapter13;2importjava.sql.*;3publicclassDataBaseConnection{4privatefinalStringDBDRIVER="com.mysql.jdbc.Driver";5privatefinalStringDBURL="jdbc:mysql://localhost:3306/javaweb";6privatefinalStringDBUSER="root";7privatefinalStringDBPASSWORD="000000";8privateConnectionconnection=null;9publicDataBaseConnection(){10try{11Class.forName(DBDRIVER);12this.connection=DriverManager.getConnection(DBURL,DBUSER,DBPASSWORD);13}14catch(Exceptione...

数据库中文显示乱码问题解决办法

Ubuntu14.04   mysql5.5 python2.7从网页爬取数据存入数据库显示乱码以root权限登录修改mysql配置文件/etc/init.d/my.cnf   找到[client]在下面加入  default-character-set=utf8  找到[mysqld_safe]在下面加入  default-character-set=utf8  找到[mysqld]在下面加入  default-character-set=utf8  init_connect='SETNAMESutf8' 找到[mysql]在下面加入 default-character-set=utf8重启mysqlservicemysqlstop/start/restart报错:1067错误重新修改配置文件,将找到[mysqld]下的default-character-set=utf8改为c...

机器学习和大数据的基本介绍,两者之间有什么联系?

大数据的定义大数据(bigdata),指无法在定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是个笼统的概念暂未发现和准确的定义。大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。大数据与机器学习两者是互相促进,相依相存的关系。机器学习与大数据紧密联系。但是,必须清醒的认识到,大数据并不等同于机器学习,同理,机器学习也不等同于大数据。大数据中包含有分布式计算,内存数据库,多维分析等等多种技术。单从分析方法来看,大数据也包含以下四种分析方法:1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。3.流式分析:这个主要指的是事件驱动架构。4.查询分析:经典代表是NoSQ...

Thinkphp5模型添加数据方法

thinPHP5模型添加数据的方法有两个一个是create,一个是save方法,下面看实际案例代码。<?phpnamespaceappindexcontroller;usethinkController;useappindexmodelUser;publicfunctionindex(){//create方法添加数据$res=User::create(['name'=>'lei','email'=>'leixiaotian@163.com','password'=>'123'],true);//true排除掉表中不存在的字段dump($res->id);dump($res);//save方法添加$userModel=newUser;$userModel->name='lei';$userModel->email='leixiaotian@163.com';$userModel->save();dump($userModel->id);//sava数组方法$res=$userModel->save(['name'=>'le...

Python基础——原生数据类型(字典,列表,元组,字符串)

字典定义了键值对的1对1管理。1、定义字典请看下面的栗子,我们先创建了一个具有两个元素的字典,每对都是key:value的形式。我们能通过key得到value,但是不能通过value得到key。还可以通过get方法得到对应key的value。d={'server':'mpilgrim','database':'master'}d{'database':'master','server':'mpilgrim'}d['server']'mpilgrim'd['database']'master'd.get('server')'mpilgrim'2、修改字典字典中的key是不能重复的,当添加一个新的value到对应的key时,将会抹除之前的value。我们可以直接给字典指定一个key-value,直接赋值就好了,一个新的key可以添加到字典中。随时可以给字典添加内容。d['database']='pubs'd{'database':'pubs','server':'mpilgrim'}d['uid']='sa'd{'database':'pubs','server':'mpilgrim','...
首页上一页...488489490491492下一页尾页