H主题的文章列表，还有H的技术要点_第2444页

【Python基础】装饰器的解释和用法

装饰器的用法比较简单，但是理解装饰器的原理还是比较复杂的，考虑到接下来的爬虫框架中很多用到装饰器的地方，我们先来讲解一下。我们定义了一个函数，没有什么具体操作，只是返回一个固定值请注意一下缩进defsample():return1print(sample())函数内部的变量和函数外的变量是不同的我们看一下下面的例子，l...

ymnets ·2020-03-25

爬虫入门【9】Python链接Excel操作详解-openpyxl库

Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。现在大多数用的都是office2010了，如果之前之前版本的可以使用xlrd读，xlwt写，这里就不介绍了。fromopenpyxlimportWorkbookwb=Workbook()#创建一个工作簿ws=w...

ymnets ·2020-03-25

爬虫实战【11】Python获取豆瓣热门电影信息

之前我们从猫眼获取过电影信息，而且利用分析ajax技术，获取过今日头条的街拍图片。今天我们在豆瓣上获取一些热门电影的信息。首先，我们先来看一下豆瓣里面选电影的页面，我们默认选择热门电影，啥都不点了。【插入图片，豆瓣热门电影页面】在选电影这个框中其实有很多标签的，这个其实可以在url设置，后面讲，现在就用热门好了。下面每...

ymnets ·2020-03-25

【穿插】Python基础之文件、文件夹的创建，对上一期代码进行优化

在上一期妹子图的爬虫教程中，我们将图片都保存在了代码当前目录下，这样并不便于浏览，我们应该将同一个模特的图片都放在一个文件夹中。今天我们就简单讲一下Python下如何创建文件、文件夹，今后就可以用上了。绝对路径比较好理解，就是最完整的路径，包含盘符的，比如D:userabc.txt，表示的就是D盘目录下，user文件夹...

ymnets ·2020-03-25

爬虫实战【5】送福利！Python获取妹子图上的内容

【插入图片，妹子图首页】哈，只敢放到这个地步了。今天给直男们送点福利，通过今天的代码，可以把你的硬盘装的满满的~下面就开始咯！假如我们知道某张图片的url，如何获取到这张图片呢？先看一下最简单的方法：【插入图片，单页url】我们获取到图片的内容，通过二进制流写入到文件中，并保存起来。这次偷懒啦，将所有图片都保存在当前目...

ymnets ·2020-03-25

爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影

前面几天介绍的都是博客园的内容，今天我们切换一下，了解一下大家都感兴趣的信息，比如最近有啥电影是万众期待的？猫眼电影是了解这些信息的好地方，在猫眼电影中有5个榜单，其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库，按照之前30天的想看总数量从高到低排列，取前50名。我们先看一下这个表单中包含什么内...

ymnets ·2020-03-25

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前面我们对博客园的文章进行了爬取，结果比较令人满意，可以一下子下载某个博主的所有文章了。但是，我们获取的只有文章中的文本内容，并且是没有排版的，看起来也比较费劲。。。咋么办的？一个比较好的方法是将文章的正文内容转化成pdf，就不要考虑排版的事情了，看起来比较美观，也不会丢失一些关键信息。python中将html转化为p...

ymnets ·2020-03-25

爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表

首先，我们来分析一下，在博主的首页里，每个文章的标题在网页源码中是什么样子的。【插入图片，文章标题1】【插入图片，文章标题2】通过这两个图片我们可以看出，博文标题所在的标签为，并且具有class属性为"postTitle2"，其href属性就指向这篇博文的地址。如下面代码所示：<aid=&qu...

ymnets ·2020-03-25

爬虫实战【1】使用python爬取博客园的某一篇文章

博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步，获取某一篇文章。第二步，获取该博主所有文章的url列表。第三步，下载所有文章。第一次实战，我们以博客园为例。Cnblog是典型的静态网页，通过查看博文的源代码，可以看出很少js代码，连css代码也比较简单，很适合爬虫初学者来练习。博客...

ymnets ·2020-03-25

爬虫入门【8】Python连接MongoDB的用法简介

MongoDB是一种跨平台，面向文档的NoSQL数据库，提供高性能，高可用性并且易于扩展。包含数据库，集合，文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了，感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB，并通过PyMongo操作MongoDB数据库。这里默认MongoD...

ymnets ·2020-03-25

爬虫入门【7】Python-文件的读写和JSON

最重要的open()方法将返回一个file对象，经常使用的两个参数为open(filename,mode)其中，filename为file保存的地址，可以是本地地址，相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None...

ymnets ·2020-03-25

HTML使用post方式提交中文内容出现乱码的错误解决方式

今天在做一个例子的时候，使用post方式提交表单，如果有中文的话，在另一个页面显示出来的时候，总是会出现乱码；但是将提交方式改为get的时候，就不会出现这种错误。详细错误见下面图片和代码。HTML代码：1<!DOCTYPEhtml>2<html>3<head>4<m...

ymnets ·2020-03-25

Python PhatomJS 和Selenium动态加载页面获取图片内容

如果您觉得感兴趣的话，可以添加我的微信公众号：一步一步学Python![](http://www.51dev.com//FileUpload/news/202003/20200325002543449.jpg)随笔中的代码拷贝自http://www.cnblogs.com/Albert-Lee/p/6275146.ht...

ymnets ·2020-03-25

python定时脚本判断服务器内存

经常我们会发现服务器跑着跑着内存使用率达到了百分之八九十，或者有时候直接挂掉，在我们还没定位是哪块代码有问题导致内存占用很大的时候，可以先写个定时脚本，当服务器内存使用率达到一定值的时候，就重启一起服务，释放内存。下面这个定时脚本是每隔10s去判断一下机器的内存，假如内存使用率超过10%，就重启一下进程（正常情况下内存...

ymnets ·2020-03-25

Python Beautiful Soup学习之HTML标签补全功能

BeautifulSoup是一个非常流行的Python模块。该模块可以解析网页，并提供定位内容的便捷接口。使用下面两个命令安装：pipinstallbeautifulsoup4或者 sudoapt-getinstallPython-bs4如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法。在...

ymnets ·2020-03-25

【Python基础】装饰器的解释和用法

爬虫入门【9】Python链接Excel操作详解-openpyxl库

爬虫实战【11】Python获取豆瓣热门电影信息

【穿插】Python基础之文件、文件夹的创建，对上一期代码进行优化

爬虫实战【5】送福利！Python获取妹子图上的内容

爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表

爬虫实战【1】使用python爬取博客园的某一篇文章

爬虫入门【8】Python连接MongoDB的用法简介

爬虫入门【7】Python-文件的读写和JSON

HTML使用post方式提交中文内容出现乱码的错误解决方式

Python PhatomJS 和Selenium动态加载页面 获取图片内容

python定时脚本判断服务器内存

Python Beautiful Soup学习之HTML标签补全功能

Python PhatomJS 和Selenium动态加载页面获取图片内容