Python

用Python玩微信(非常详细)

代码放在这里:wzyonggege/python-wechat-itchat词云那里可以换成小黄人图片---------------------------------------------------------------------------------------------------最近研究了一些微信的...
代码星球·2020-06-14

如何用Python做词云(收藏)

看过之后你有什么感觉?想不想自己做一张出来?如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图。当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫。不过不要紧,好的开始是成功的一半嘛。食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路。网上教你做信息图的教程很多。许多都是利用了专用工...
代码星球·2020-06-14

openpyxl(python操作Excel)

一、安装>>>pipinstallopenpyxlimportopenpyxl二、常用操作1、创建与保存一个工作簿wb=openpyxl.Workbook()wb.save("sample.xlsx")2、获取第一个工作表(将工作看成一个二维数组)ws=wb.activews.titlews["A1"...
代码星球·2020-06-14

python爬虫之数据加密解密

一、什么叫数据加密  数据加密是指利用加密算法和秘钥将明文转变为密文的过程。二、数据加密的方式  1、单向加密  指只能加密数据而不能解密数据,这种加密方式主要是为了保证数据的完整性,常见的加密算法有MD5、sha系列等(位于python内置的hashlib模块中)。  2、对称加密  指数据加密和解密使用相同的秘钥,...

python爬虫之字体反爬

一、什么是字体反爬?  字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例:  上图表明,浏览器正常渲染的数据在调试界面显示...
代码星球·2020-06-14

python爬虫之selenium+打码平台识别验证码

1、常用的打码平台:超级鹰、打码兔等2、打码平台在识别图形验证码和点触验证码上比较好用  (1)12306点触验证码1fromseleniumimportwebdriver2fromselenium.webdriver.supportimportexpected_conditionsasEC3fromselenium....

python爬虫之浅析验证码

一、什么是验证码?  验证码(CAPTCHA)是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”(全自动区分计算机和人类的图灵测试)的缩写。是一种用来区分用户是计算机还是人的公共全自动程序。二、验证码的作用  验...
代码星球·2020-06-14

python爬虫之Appium手机APP爬虫

一、Appium工作原理(详情见:https://www.cnblogs.com/sophia194910/p/7515165.html)  Appium的功能其实很简单:监听一个端口,然后接收由client发送来的command,翻译这些command,把这些command转成移动设备可以理解的形...

python爬虫-纠正MD5错误认知

m=md5("12345678".encode())print(m.hexdigest())#25d55ad283aa400af464c76d713c07adm=md5("1234".encode())print(m.hexdigest())#81dc9bdb52d04dc20036dbd8313ed055m.upda...

Python爬虫-scrapyd

1、什么是scrapyd  Scrapyd是一个服务,用来运行scrapy爬虫的。  它允许你部署你的scrapy项目以及通过HTTPJSON的方式控制你的爬虫。  官方文档:http://scrapyd.readthedocs.org/2、安装scrapyd和scrapyd-client  pipinstallscr...
代码星球·2020-06-14

python爬虫-scrapy日志

1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装  scrapy也使用python日志级别分类logging.CRITICALlogging.ERROElogging.WARININGlogging.INFOlogging.DEBUG 2、如...
代码星球·2020-06-14

python爬虫-MongoDB安装配置

MongoDB安装配置:  在安装配置MongoDB的过程中遇到了很多问题,现在重新梳理一遍安装流程、遇到的问题及其解决方法  系统版本:Windows10  MongoDB版本:4.2.1  1.下载地址:https://www.mongodb.com/download-center/community  2.安装流...

python爬虫-提取网页数据的三种武器

常用的提取网页数据的工具有三种xpath、css选择器、正则表达式1.xpath  1.1在python中使用xpath必须要下载lxml模块:  lxml官方文档:https://lxml.de/index.html    pipinstalllxml  然后导入:    fromlxmlimportetree  使...

python爬虫-smtplib模块发送邮件

1、代码如下:importsmtplibfromemail.messagefromEmailMessage#smtplib模块负责发送邮件服务#email.message模块负责构建邮件,然后交给smtplib发送#定义SMTP服务器地址smtp_server='smtp.163.com'#定义发件人地址from_ad...

python爬虫所遇问题列举

1、通过pythonsocket库来构造请求报文,向服务器发送图片请求时  (1)图片在浏览器请求头中的remoteaddress信息跟通过pythonsocket输出远程连接地址和端口号不一致    RemoteAddress:183.61.138.62:443    raddr=('183.61.138.62',8...