为您找到搜索结果:73314个
python3之模板pycurl探测web服务质量
1、pycurl简介pycURL是libcurl多协议文件传输库的python接口,与urllib模块类似,PycURL可用于从python程序中获取由URL标识的对象,功能很强大,libcurl速度非常快pycurl作为libcurl之上的薄包装,速度也非常快;支持多种协议SSL,身份验证和代理选项;用于网络操作的套接字允许将pycurl集成到应用程序的I/O循环中。libcurl是一个免费且易于使用的客户端URL传输库,支持DICT,FILE,FTP,FTPS,Gopher,HTTP,HTTPS,IMAP,IMAPS,LDAP,LDAPS,POP3,POP3S,RTMP,RTSP,SCP,SFTP,SMTP,SMTPS,Telnet和TFTP。libcurl支持SSL证书,HTTPPOST,HTTPPUT,FTP上传,基于HTTP表单的上传,代理,cookies,用户名密码认证(Basic,Digest,NTLM,Negotiate,Kerberos4),文件传输恢复,http代理隧道等等。libcurl具有很高的可移植性,它可以在多种平台上构建和运行,包括Solaris,NetB...
python3之模块SMTP协议客户端与email邮件MIME对象
1、smtplib模块的常用类与方法smtplib模块实现邮件的发送功能,模拟一个stmp客户端,通过与smtp服务器交互来实现邮件发送的功能,可以理解成Foxmail的发邮件功能,在使用之前我们需要准备smtp服务器主机地址、邮箱账号以及密码信息。在python2.3以后python自带smtplib模块,无需额外安装。classsmtplib.SMTP(host="",port=0,local_hostname=None,[timeout,]source_address=None):SMTP类定义作为SMTP的构造函数,定义了一个SMTP客户端会话对象,功能是与smtp服务器建立链接,在链接成功后,就可以向服务器发送相关请求,比如登陆、校验、发送、退出等。host:参数为远程smtp主机地址;如:smtp.163.comport:为链接端口默认为25local_hostname:是将本地主机的FQDN(完整域名)发送HELO/EHLO(标识用户身份)的指令timeout:为链接或尝试链接多少秒后超时source_address:绑定到具有多个网络接口的计算机中的某个特定...
python3之安装、pip、setuptools
1、python3安装下载地址:https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz#安装环境centOS7#安装依赖包:yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devel#开始安装:wgethttps://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgzmkdir-p/usr/local/python356tarzxvfPython-3.6.5.tgzcdPython-3.6.5./configure--prefix=/usr/local/python356makemakeinstallln-s/usr/local/python356/bin/python3/usr/local/bin/python3ln-s/usr/local/python356/bin/pip3...
python3之SQLAlchemy
1、SQLAlchemy介绍SQLAlchemy是PythonSQL工具包和对象关系映射器,为应用程序开发人员提供了SQL的全部功能和灵活性。它提供了一整套众所周知的企业级持久性模式,专为高效和高性能的数据库访问而设计,适用于简单的Pythonic域语言。SQLAlchemy对象关系映射器提供了一种将用户定义的Python类与数据库表关联的方法,以及这些类(对象)在其相应表中具有行的实例。它包括一个系统,可以透明地同步对象及其相关行之间状态的所有变化(称为工作单元),以及根据用户定义的类和它们之间定义的关系来表示数据库查询的系统。2、sqlalchemy安装链接可以使用easy_install或者pip安装SQLAlchemy:easy_installsqlalchemy或者pipinstallsqlalchemy查看SQLAlchemy版本信息In[1]:importsqlalchemyIn[2]:sqlalchemy.__version__Out[2]:'1.2.4'SQLAlchemy是Python编程语言下的一款ORM框架,该框架建立在数据库API之上,使用关系对象映射进行数据...
python3之memcached
1、memcached介绍Memcached是一个自由开源的,高性能,分布式内存对象缓存系统。Memcached是以LiveJournal旗下DangaInteractive公司的BradFitzpatric为首开发的一款软件。现在已成为mixi、hatena、Facebook、Vox、LiveJournal等众多服务中提高Web应用扩展性的重要因素。Memcached是一种基于内存的key-value存储,用来存储小块的任意数据(字符串、对象)。这些数据可以是数据库调用、API调用或者是页面渲染的结果。Memcached简洁而强大。它的简洁设计便于快速开发,减轻开发难度,解决了大数据量缓存的很多问题。它的API兼容大部分流行的开发语言。本质上,它是一个简洁的key-value存储系统。一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度、提高可扩展性。memcached分布式缓存服务器的特点:协议简单、基于libevent的事件处理、内置内存存储方式、memcached不互相通信的分布式2、Memcached安装和基本使用Memcached支持许多...
python3光学字符识别模块tesserocr与pytesseract
OCR,即OpticalCharacterRecognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程tesserocr与pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层PythonAPI封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract1、安装tesseract、tesserocr、pytesseract (1)windows下的安装下载tesseract:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe然后双击程序安装即可,可以勾选Additi...
python3 web测试模块selenium
selenium是一个用于web应用程序测试工具,selenium测试直接运行在浏览器中,就像真正的用户在操作一样,支持的浏览器包括IE(7,8,9,10,11),mozillafirefox,safari,googlechrom,opera等,可使用java,python等多种语言编写用例脚本。SeleniumPython绑定提供了一个简单的API,可以使用SeleniumWebDriver编写功能/验收测试。通过SeleniumPythonAPI,您可以直观地访问SeleniumWebDriver的所有功能。SeleniumPython绑定提供了一个方便的API来访问SeleniumWebDrivers,如Firefox,Ie,Chrome,Remote等。目前支持的Python版本是2.7,3.5及更高版本1、selenium安装配置pip安装:pipinstallseleniumwheel安装:#下载wheel安装文件:https://pypi.python.org/pypi/selenium/#downloadspipinstallselenium-3.13.0-py2.py...
python3csv与xlsx文件操作模块(csv、xlsxwriter)
1、CSV介绍CSV,全称为Comma-SeparatedValues,它以逗号分隔值,其文件以纯文本形式存储表格数据,该文件是一个字符序列,可以由任意数目的记录组成,每条记录有字段组成,字段间分隔符是逗号或制表符,相当于结构化的纯文本形式,它比Excel文件更简洁,用来存储数据比较方便2、CSV常用类与方法csv.reader(csvfile,dialect='excel',**fmtparams)遍历CSV文件对象并返回,csvfiel可以是任何支持迭代器协议的对象,如果csvfile是一个文件对象,它需要指定newline=''csv.writer(csvfile,dialect='excel',**fmtparams)写入数据到csv文件中,csvfile可以是具有写入方法的任何对象,如果csvfiel是一个文件对象,应该用newline=''指定换行符(unix上位'',windows上位'')#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2018/6/2711:44#@Author:Py.qi#@File:csv_file1.p...
python3解析库pyquery
pyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和html文档上操作,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便1、pyquery安装pip方式安装:$pipinstallpyquery#它依赖cssselect和lxml包pyquery==1.4.0-cssselect[required:>0.7.9,installed:1.0.3]#CSS选择器并将它转换为XPath表达式-lxml[required:>=2.1,installed:4.2.2]#处理xml和html解析库验证安装:In[1]:importpyqueryIn[2]:pyquery.textOut[2]:<module'pyquery.text'from'/root/pp1/.venv/lib/python3.6/site-packages/pyquery/text.py'>2、pyquery对象初始化pyquery首先需要传入HTML文本来初始化一个py...
django views视图
视图函数简称视图,本质上是一个简单的python函数,它接受web请求并且返回web响应;响应的内容可以是HTML网页、重定向、404错误、XML文档或图像等任何东西,但是,无论视图本身是个什么处理逻辑,最好都返回某种响应视图函数的代码写在哪都无所谓,只要它在你的python目录下面,但是通常我们约定将视图放置在项目或应用程序目录中的名为views.py的文件中。1、一个简单的视图下面是一个返回当前日期和时间作为HTML文档的视图:fromdjango.httpimportHttpResponseimportdatetimedefcurrent_datetime(request):now=datetime.datetime.now()html="<html><body>Itisnow%s.</body></html>"%nowreturnHttpResponse(html)让我们逐行分析一下上面的代码:首先,从django.http模块导入了HttpResponse类,以及python的datetime库接着,我们定义了current_d...
爬虫入门【11】Pyspider框架入门—使用HTML和CSS选择器下载小说
首先我们要安装好pyspider,可以参考上一篇文章。从一个web页面抓取信息的过程包括:1、找到页面上包含的URL信息,这个url包含我们想要的信息2、通过HTTP来获取页面内容3、从HTML中提取出信息来4、然后找到更多的URL,回到第2步继续执行~我推荐一部小说给大家《恶魔法则》。今天我们从网上将这部小说的内容按照章节下载下来。小说目录的url为https://www.ybdu.com/xiaoshuo/4/4646/我们现在控制台命令行中输入pyspiderall,命令,然后打开浏览器,输入http://localhost:5000/。点击右面的Create按钮,输入项目名称,点击创建即可。【插入图片,创建项目】创建项目之后,在浏览器出现一个框架,左面是结果显示区,最主要的是一个run命令。右面是我们输入代码的内容。由于这个代码编辑界面不太友好,建议我们将代码拷贝到pycharm中,编辑好或者修改好之后再复制回来运行。【插入图片,空白项目内容】我们如果访问https页面,一定要添加validate_cert=False,否则会报SSL错误。这一步主要是获取目录页。这个方法会获取...
爬虫入门【10】Pyspider框架简介及安装说明
Pyspider是python中的一个很流行的爬虫框架系统,它具有的特点如下:1、可以在Python环境下写脚本2、具有WebUI,脚本编辑器,并且有项目管理和任务监视器以及结果查看。3、支持多种数据库4、支持定义任务优先级,自动重试链接。。。5、分布式架构等等优点。pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫。教程:http://docs.pyspider.org/en/latest/tutorial/文档:http://docs.pyspider.org/发布版本:https://github.com/binux/pyspider/releasesfrompyspider.libs.base_handlerimport*classHandler(BaseHandler):crawl_config={}@every(minutes=24*60)defon_start(self):self.crawl('http://scrapy.org/',callback=self.index_page)@config(age=10*24*60*60)defindex_pa...
爬虫入门【9】Python链接Excel操作详解-openpyxl库
Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。现在大多数用的都是office2010了,如果之前之前版本的可以使用xlrd读,xlwt写,这里就不介绍了。fromopenpyxlimportWorkbookwb=Workbook()#创建一个工作簿ws=wb.active#获取工作的激活工作表ws['A1']=42#在A1中插入内容ws.append([1,2,3])#这里其实是在第二行插入了3个数字,占用了三个单元格importdatetimews['A2']=datetime.datetime.now()#在A2中插入了当前时间,把上一句的那个1挤掉了wb.save('sample.xlsx')#保存到当前目录创建一个workbook一般创建workbook后至少会有一个worksheet,我们可以通过active属性来获取。我们还可以通过create_sheet()方法来创建新的worksheet。一般默认创建的sheet的名字是序列化的,我们可以更改title属性来设置想要的名称。一旦我们指定了名称,可以使用key...
爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评
昨天我们已经实现了如何抓取豆瓣上的热门电影信息,虽然不多,只有几百,但是足够我们进行分析了。今天我们来讲一下如何获取某一部电影的所有短评论信息,并保存到mongodb中。豆瓣设置的反爬虫机制是比较简单的,我们可以通过selenium模拟浏览器登陆这种终极办法来绕过,但是更加有效率的方法是设置请求头信息的cookie,是豆瓣认为在访问的就是一个用户,而不是机器。【插入图片,我的cookie】我们首先要登陆自己的豆瓣账户,随便点击一个评论页面,在请求信息里面,找到cookie,保存下来。我们先看一下评论页面的url特点,或者说请求网址的构成。https://movie.douban.com/subject/26378579/comments?start=20&limit=20&sort=new_score&status=P&percent_type=一看上面的url,我们就能分析出来这又是一个参数传递的url,前面的地址是这部电影的url,我们通过昨天的学习,应该能够得到并且已经保存在数据库中了。【插入图片,评论url参数】改变start的值,就可以得到很多...
爬虫实战【10】利用Selenium自动登陆京东签到领金币
今天我们来讲一下如何通过python来实现自动登陆京东,以及签到领取金币。我们先来看一下京东的登陆页面,如下图所示:【插入图片,登陆页面】登陆框就是右面这一个框框了,但是目前我们遇到一个困呐,默认的登陆方式是扫码登陆,如果我们想要以用户民个、密码的形式登陆,就要切换一下。我们看一下这两种登陆方式是如何切换的,通过浏览器的元素检查,我们看一下两个标签。【插入图片,两种登陆方式】扫码登陆和用户登陆分别在一个div标签里面,我们可以通过css选择器选定用户登陆,使其下面的a标签的class为checked,接下来的一切就比较简单了。我们要获取到用户名输入框、密码输入框以及登陆按钮即可。【插入图片,用户登陆框】下面看一下实现的代码,假设我们通过FireFox浏览器模拟登陆吧。fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitfromselenium.webdriver.supportimportexpecte...