#P

python3csv与xlsx文件操作模块(csv、xlsxwriter)

1、CSV介绍CSV,全称为Comma-SeparatedValues,它以逗号分隔值,其文件以纯文本形式存储表格数据,该文件是一个字符序列,可以由任意数目的记录组成,每条记录有字段组成,字段间分隔符是逗号或制表符,相当于结构化的纯文本形式,它比Excel文件更简洁,用来存储数据比较方便2、CSV常用类与方法csv.r...

python3解析库pyquery

pyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和html文档上操作,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便1、pyquery安装pip方式安装:$pipinstallpyqu...

python3之Django表单(一)

1、HTML中的表单在HTML种,表单是在<form>...</form>种的元素,它允许用户输入文本,选择选项,操作对象等,然后发送这些数据到服务器表单元素允许用户在表单种输入内容如,文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等。...
ymnets ymnets·2020-03-25

python3之Django模型(一)

1、模型概述模型是关于您的数据的唯一,明确的信息来源,它包含您正在存储的数据的重要字段和行为。通常,每个模型映射到单个数据库表。每个模型都是一个子类的python类django.db.models.Model模型的每个属性表示一个数据字段综上所述,Django为您提供了一个自动生成的数据库访问API。简单实例:在app...
ymnets ymnets·2020-03-25

爬虫入门【11】Pyspider框架入门—使用HTML和CSS选择器下载小说

首先我们要安装好pyspider,可以参考上一篇文章。从一个web页面抓取信息的过程包括:1、找到页面上包含的URL信息,这个url包含我们想要的信息2、通过HTTP来获取页面内容3、从HTML中提取出信息来4、然后找到更多的URL,回到第2步继续执行~我推荐一部小说给大家《恶魔法则》。今天我们从网上将这部小说的内容按...

爬虫入门【10】Pyspider框架简介及安装说明

Pyspider是python中的一个很流行的爬虫框架系统,它具有的特点如下:1、可以在Python环境下写脚本2、具有WebUI,脚本编辑器,并且有项目管理和任务监视器以及结果查看。3、支持多种数据库4、支持定义任务优先级,自动重试链接。。。5、分布式架构等等优点。pyspider的设计基础是:以python脚本驱动...

【Python基础】装饰器的解释和用法

装饰器的用法比较简单,但是理解装饰器的原理还是比较复杂的,考虑到接下来的爬虫框架中很多用到装饰器的地方,我们先来讲解一下。我们定义了一个函数,没有什么具体操作,只是返回一个固定值请注意一下缩进defsample():return1print(sample())函数内部的变量和函数外的变量是不同的我们看一下下面的例子,l...

爬虫入门【9】Python链接Excel操作详解-openpyxl库

Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。现在大多数用的都是office2010了,如果之前之前版本的可以使用xlrd读,xlwt写,这里就不介绍了。fromopenpyxlimportWorkbookwb=Workbook()#创建一个工作簿ws=w...

爬虫实战【13】获取自己的动态代理ip池

在爬取一些比较友好的网站时,仍然有可能因为单位时间内访问次数过多,使服务器认定为机器访问,导致访问失败或者被封。如果我们使用不同的ip来访问网站的话,就可以绕过服务器的重复验证,使服务器以为使不同的人在访问,就不会被封了。网络上有很多提供代理ip的网站,我们经常使用的一个是西刺免费代理ip,url='http://ww...

爬虫实战【11】Python获取豆瓣热门电影信息

之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片。今天我们在豆瓣上获取一些热门电影的信息。首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影,啥都不点了。【插入图片,豆瓣热门电影页面】在选电影这个框中其实有很多标签的,这个其实可以在url设置,后面讲,现在就用热门好了。下面每...

【穿插】Python基础之文件、文件夹的创建,对上一期代码进行优化

在上一期妹子图的爬虫教程中,我们将图片都保存在了代码当前目录下,这样并不便于浏览,我们应该将同一个模特的图片都放在一个文件夹中。今天我们就简单讲一下Python下如何创建文件、文件夹,今后就可以用上了。绝对路径比较好理解,就是最完整的路径,包含盘符的,比如D:userabc.txt,表示的就是D盘目录下,user文件夹...

爬虫实战【5】送福利!Python获取妹子图上的内容

【插入图片,妹子图首页】哈,只敢放到这个地步了。今天给直男们送点福利,通过今天的代码,可以把你的硬盘装的满满的~下面就开始咯!假如我们知道某张图片的url,如何获取到这张图片呢?先看一下最简单的方法:【插入图片,单页url】我们获取到图片的内容,通过二进制流写入到文件中,并保存起来。这次偷懒啦,将所有图片都保存在当前目...

爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影

前面几天介绍的都是博客园的内容,今天我们切换一下,了解一下大家都感兴趣的信息,比如最近有啥电影是万众期待的?猫眼电影是了解这些信息的好地方,在猫眼电影中有5个榜单,其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库,按照之前30天的想看总数量从高到低排列,取前50名。我们先看一下这个表单中包含什么内...

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前面我们对博客园的文章进行了爬取,结果比较令人满意,可以一下子下载某个博主的所有文章了。但是,我们获取的只有文章中的文本内容,并且是没有排版的,看起来也比较费劲。。。咋么办的?一个比较好的方法是将文章的正文内容转化成pdf,就不要考虑排版的事情了,看起来比较美观,也不会丢失一些关键信息。python中将html转化为p...

爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表

首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。【插入图片,文章标题1】【插入图片,文章标题2】通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2",其href属性就指向这篇博文的地址。如下面代码所示:<aid=&qu...
首页上一页...34163417341834193420...下一页尾页