Python

Python爬虫音频数据

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址,频道信息,简介等等,非常多。昨天进行了人生中第一次面试,对方是一家人工智能大数据公司,我准备在这大二的暑假去实习,他们就要求有爬取...
代码星球·2020-06-14

python一步高级编程

总结·is是比较两个引用是否指向了同一个对象(引用比较)。·==是比较两个对象是否相等。1.浅拷贝浅拷贝是对于一个对象的顶层拷贝通俗的理解是:拷贝了引用,并没有拷贝内容2.深拷贝深拷贝是对于一个对象所有层次的拷贝(递归)进一步理解拷贝3.拷贝的其他方式浅拷贝对不可变类型和可变类型的copy不...
代码星球·2020-06-14

Python简单的制作图片验证码

-人人可以学Python--这里示范的验证码都是简单的,你也可以把字符扭曲人人可以学Python.pngPython第三方库无比强大,PIL是python的一个d第三方图片处理模块,我们也可以使用它来生成图片验证码PIL安装命令安装:pipinstallpillow下载源码安装:复制地址:https://github....

用Python写个自动ssh登录远程服务器的小工具

很多时候我们喜欢在自己电脑的终端直接ssh连接Linux服务器,而不喜欢使用那些有UI界面的工具区连接我们的服务器。可是在终端使用ssh我们每次都需要输入账号和密码,这也是一个烦恼,所以我们可以简单的打造一个在Linux/Macos运行的自动ssh登录远程服务器的小工具.来个GIF动画示例下先:概述我们先理一下我们需要...

Python爬知乎妹子都爱取啥名

闲来无事上知乎,看到好多妹子,于是抓取一波。有没有兴趣??目标网址https://www.zhihu.com/collection/78172986抓取分析使用pandas操作文件importpandasaspdfp=pd.read_excel('D:Backup桌面lunzige.xlsx')fpname=fp['n...

python爬虫实战——5分钟做个图片自动下载器

  顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤。一般来说,制作一个爬虫需要分以下几个步骤:分析需求(对,需求分析非常重要,不要告诉我你老师没教你)分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?)编写正则表达式或者XPath表达式(就是前面说的那个神器)正式编写p...

Python数据处理实战

1、python版本2.7.13博客代码均是这个版本2、系统环境:win764位系统部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种金额万元)这样,我想着用sql写条件判断,统一转换为‘万元人民币’单位,用sql脚本进行字符串截...
代码星球·2020-06-14

Python爬虫之百度API调用

调用百度API获取经纬度信息。importrequestsimportjsonaddress=input('请输入地点:')par={'address':address,'key':'cb649a25c1f81c1451adbeca73623251'}url='http://restapi.amap.com/v3/ge...

Python爬虫数据处理

设置变量length()函数char_length()replace()函数max()函数1.1、设置变量set@变量名=值set@address='中国-山东省-聊城市-莘县';select@address1.2、length()函数char_length()函数区别selectlength('a'),char_le...
代码星球·2020-06-14

深度解析Python动态语言

动态编程语言是高级程序设计语言的一个类别,在计算机科学领域已被广泛应用。它是一类在运行时可以改变其结构的语言:例如新的函数、对象、甚至代码可以被引进,已有的函数可以被删除或是其他结构上的变化。动态语言目前非常具有活力。例如JavaScript便是一个动态语言,除此之外如PHP、Ruby、Python等也都属于动态语言,...

Python-生成器/你不知道的点

通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?...
代码星球·2020-06-14

Python爬虫Dota排行榜爬取

1、分析网站打开开发者工具,我们观察到排行榜的数据并没有在doc里doc文档在Javascript里我么可以看到下面代码:ajax的post方法异步请求数据在XHR一栏里,我们找到所请求的数据json存储的数据请求字段为:post请求字段2、伪装浏览器,并将json数据存入excel里面 获取信息 ...

Python抓取学院新闻报告

任务抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询.实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构.这里我们发现想要抓到全部的新闻信...

Python中的模块介绍和使用

在Python中有一个概念叫做模块(module),这个和C语言中的头文件以及Java中的包很类似,比如在Python中要调用sqrt函数,必须用import关键字引入math这个模块,下面就来了解一下Python中的模块。说的通俗点:模块就好比是工具包,要想使用这个工具包中的工具(就好比函数),就需要导入这个模块在P...

Python抓取成都房价信息

Python里scrapy爬虫scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~话不多说,进入正题:任务抓取链家网(成都)的所有新房以及二手房价格、位置相关信息。实验流程1.确定抓取目标.2.制定抓取规则.3.'编写/调试'...