Python数据分析与挖掘实战主题的文章列表，还有Python数据分析与挖掘实战的技术要点_第414页

python3csv与xlsx文件操作模块（csv、xlsxwriter）

1、CSV介绍CSV，全称为Comma-SeparatedValues,它以逗号分隔值，其文件以纯文本形式存储表格数据，该文件是一个字符序列，可以由任意数目的记录组成，每条记录有字段组成，字段间分隔符是逗号或制表符，相当于结构化的纯文本形式，它比Excel文件更简洁，用来存储数据比较方便2、CSV常用类与方法csv.r...

ymnets ·2020-03-25

python3解析库pyquery

pyquery是一个类似jquery的python库，它实现能够在xml文档中进行jQuery查询，pyquery使用lxml解析器进行快速在xml和html文档上操作，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便1、pyquery安装pip方式安装：$pipinstallpyqu...

ymnets ·2020-03-25

python3之Django表单(一)

1、HTML中的表单在HTML种，表单是在<form>...</form>种的元素，它允许用户输入文本，选择选项，操作对象等，然后发送这些数据到服务器表单元素允许用户在表单种输入内容如，文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等。...

ymnets ·2020-03-25

python3之Django模型（一）

1、模型概述模型是关于您的数据的唯一，明确的信息来源，它包含您正在存储的数据的重要字段和行为。通常，每个模型映射到单个数据库表。每个模型都是一个子类的python类django.db.models.Model模型的每个属性表示一个数据字段综上所述，Django为您提供了一个自动生成的数据库访问API。简单实例：在app...

ymnets ·2020-03-25

【Python基础】装饰器的解释和用法

装饰器的用法比较简单，但是理解装饰器的原理还是比较复杂的，考虑到接下来的爬虫框架中很多用到装饰器的地方，我们先来讲解一下。我们定义了一个函数，没有什么具体操作，只是返回一个固定值请注意一下缩进defsample():return1print(sample())函数内部的变量和函数外的变量是不同的我们看一下下面的例子，l...

ymnets ·2020-03-25

爬虫入门【9】Python链接Excel操作详解-openpyxl库

Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。现在大多数用的都是office2010了，如果之前之前版本的可以使用xlrd读，xlwt写，这里就不介绍了。fromopenpyxlimportWorkbookwb=Workbook()#创建一个工作簿ws=w...

ymnets ·2020-03-25

爬虫实战【13】获取自己的动态代理ip池

在爬取一些比较友好的网站时，仍然有可能因为单位时间内访问次数过多，使服务器认定为机器访问，导致访问失败或者被封。如果我们使用不同的ip来访问网站的话，就可以绕过服务器的重复验证，使服务器以为使不同的人在访问，就不会被封了。网络上有很多提供代理ip的网站，我们经常使用的一个是西刺免费代理ip，url='http://ww...

ymnets ·2020-03-25

爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评

昨天我们已经实现了如何抓取豆瓣上的热门电影信息，虽然不多，只有几百，但是足够我们进行分析了。今天我们来讲一下如何获取某一部电影的所有短评论信息，并保存到mongodb中。豆瓣设置的反爬虫机制是比较简单的，我们可以通过selenium模拟浏览器登陆这种终极办法来绕过，但是更加有效率的方法是设置请求头信息的cookie，是...

ymnets ·2020-03-25

爬虫实战【11】Python获取豆瓣热门电影信息

之前我们从猫眼获取过电影信息，而且利用分析ajax技术，获取过今日头条的街拍图片。今天我们在豆瓣上获取一些热门电影的信息。首先，我们先来看一下豆瓣里面选电影的页面，我们默认选择热门电影，啥都不点了。【插入图片，豆瓣热门电影页面】在选电影这个框中其实有很多标签的，这个其实可以在url设置，后面讲，现在就用热门好了。下面每...

ymnets ·2020-03-25

爬虫实战【10】利用Selenium自动登陆京东签到领金币

今天我们来讲一下如何通过python来实现自动登陆京东，以及签到领取金币。我们先来看一下京东的登陆页面，如下图所示：【插入图片，登陆页面】登陆框就是右面这一个框框了，但是目前我们遇到一个困呐，默认的登陆方式是扫码登陆，如果我们想要以用户民个、密码的形式登陆，就要切换一下。我们看一下这两种登陆方式是如何切换的，通过浏览器...

ymnets ·2020-03-25

爬虫实战【9】Selenium解析淘宝宝贝-获取宝贝信息并保存

通过昨天的分析，我们已经能到依次打开多个页面了，接下来就是获取每个页面上宝贝的信息了。【插入图片，宝贝信息各项内容】从图片上看，每个宝贝有如下信息；price，title，url，dealamount，shop，location等6个信息，其中url表示宝贝的地址。我们通过查看器分析，每个宝贝都在一个div里面，这个d...

ymnets ·2020-03-25

爬虫实战【8】Selenium解析淘宝宝贝-获取多个页面

作为全民购物网站的淘宝是在学习爬虫过程中不可避免要打交道的一个网站，而是淘宝上的数据真的很多，只要我们指定关键字，将会出现成千上万条数据。今天我们来讲一下如何从淘宝上获取某一类宝贝的信息，比如今天我们以“手机”作为关键词，举个例子。【插入图片，淘宝手机页面示意】上面是搜索框，下面显示了很多宝贝信息，最下面是翻页的控制按...

ymnets ·2020-03-25

爬虫实战【6】Ajax内容解析-今日头条图集

AJAX=AsynchronousJavaScriptandXML（异步的JavaScript和XML）。Ajax并不是新的编程语言，而是一种使用现有标准的新方法，当然也不是很新了，在97年左右，微软就发明了ajax的关键技术，但是并没有推广；随着Googleeath、googlesuggest和gmail的广泛应用，...

ymnets ·2020-03-25

【穿插】Python基础之文件、文件夹的创建，对上一期代码进行优化

在上一期妹子图的爬虫教程中，我们将图片都保存在了代码当前目录下，这样并不便于浏览，我们应该将同一个模特的图片都放在一个文件夹中。今天我们就简单讲一下Python下如何创建文件、文件夹，今后就可以用上了。绝对路径比较好理解，就是最完整的路径，包含盘符的，比如D:userabc.txt，表示的就是D盘目录下，user文件夹...

ymnets ·2020-03-25

爬虫实战【5】送福利！Python获取妹子图上的内容

【插入图片，妹子图首页】哈，只敢放到这个地步了。今天给直男们送点福利，通过今天的代码，可以把你的硬盘装的满满的~下面就开始咯！假如我们知道某张图片的url，如何获取到这张图片呢？先看一下最简单的方法：【插入图片，单页url】我们获取到图片的内容，通过二进制流写入到文件中，并保存起来。这次偷懒啦，将所有图片都保存在当前目...

ymnets ·2020-03-25