Python 爬虫系列:糗事百科最热段子

1.获取糗事百科urlhttp://www.qiushibaike.com/hot/page/2/  末尾2指第2页2.分析页面,找到段子部分的位置,需要一点CSS和HTML的知识3、编写代码1importurllib.request2frombs4importBeautifulSoup3fromurllib.requestimportURLError4fromurllib.requestimportHTTPError5importtime6#调用publicHeaders文件的方法7from爬虫.publicHeadersimportset_user_agent8910#抓取网页11defdownload(pagenum):12url=r'https://www.qiushibaike.com/hot/page/'1314#分页下载15foriinrange(1,pagenum):16#组装url17new_url=url+str(pagenum)18print(new_url)19#有的时候访问某个网页会一直得不到响应,程序就会卡到那里,我让他1秒后自动超时而抛...

python字符串/元组/列表/字典互转

1#-*-coding:utf-8-*-23#1、字典4dict={'name':'Zara','age':7,'class':'First'}56#字典转为字符串,返回:<type'str'>{'age':7,'name':'Zara','class':'First'}7printtype(str(dict)),str(dict)89#字典可以转为元组,返回:('age','name','class')10printtuple(dict)11#字典可以转为元组,返回:(7,'Zara','First')12printtuple(dict.values())1314#字典转为列表,返回:['age','name','class']15printlist(dict)16#字典转为列表17printdict.values1819#2、元组20tup=(1,2,3,4,5)2122#元组转为字符串,返回:(1,2,3,4,5)23printtup.__str__()2425#元组转为列表,返回:[1,2,3,4,5]26printlist(tup)2728#元组不可以转为字典29...

python使用代理访问服务器

python使用代理访问服务器主要有一下3个步骤:1.创建一个代理处理器ProxyHandler:proxy_support=urllib.request.ProxyHandler(),ProxyHandler是一个类,其参数是一个字典:{'类型':'代理ip:端口号'}什么是Handler?Handler也叫作处理器,每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面,例如HTTP重定向或者HTTPcookies。2.定制、创建一个opener:opener=urllib.request.build_opener(proxy_support)什么是opener?python在打开一个url链接时,就会使用opener。其实,urllib.request.urlopen()函数实际上是使用的是默认的opener,只不过在这里我们需要定制一个opener来指定handler。3a.安装openerurllib.request.install_opener(opener)install_opener用来创建(全局)默认opener,这个表示调用urlo...

python BeautifulSoup库用法总结

 简单来说,BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,BeautifulSoup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。BeautifulSoup3目前已经停止开发,推荐在现在的项目中使用BeautifulSoup4,不过它已经被移植到BS4了,也就是说导入时我们需要importbs4。可以利用pip或者easy_install来安装,以下两种方法均可easy_installbeautifulsoup4...

python线程池(threadpool)

一、安装pipinstallthreadpool  二、使用介绍(1)引入threadpool模块(2)定义线程函数  (3)创建线程池threadpool.ThreadPool()  (4)创建需要线程池处理的任务即threadpool.makeRequests()  (5)将创建的多个任务put到线程池中,threadpool.putRequest  (6)等到所有任务处理完毕theadpool.pool()importthreadpooldefThreadFun(arg1,arg2):passdefmain():device_list=[object1,object2,object3......,objectn]#需要处理的设备个数task_pool=threadpool.ThreadPool(8)#8是线程池中线程的个数request_list=[]#存放任务列表#首先构造任务列表fordeviceindevice_list:request_list.append(threadp...

Python "HTTP Error 403: Forbidden"

问题:执行下面的语句时1defset_IPlsit():2url='https://www.whatismyip.com/'3response=urllib.request.urlopen(url)4html=response.read().decode('utf-8')出现以下异常: C:Users54353AppDataLocalProgramsPythonPython36python.exe"C:/Users/54353/PycharmProjects/untitled/爬虫/图片-某网站.py"Traceback(mostrecentcalllast):File"C:/Users/54353/PycharmProjects/untitled/爬虫/图片-某网站.py",line100,in<module>ip=set_IPlsit2()File"C:/Users/54353/PycharmProjects/untitled/爬虫/图片-某网站.py",line95,inset_IPlsit2response=ure.urlopen(url)File"C:U...

2.python数据类型

Python3中有六个标准的数据类型:Number(数字)String(字符串)List(列表)Tuple(元组)Set(集合)Dictionary(字典)Python3的六个标准数据类型中:不可变数据(3个):Number(数字)、String(字符串)、Tuple(元组);可变数据(3个):List(列表)、Dictionary(字典)、Set(集合)。Python3支持 int、float、bool、complex(复数)。在Python3里,只有一种整数类型int,表示为长整型,没有python2中的Long。...

1.python基础语法

第一个字符必须是字母表中字母或下划线 _ 。标识符的其他的部分由字母、数字和下划线组成。标识符对大小写敏感。Python中单行注释以 # 开头,多行注释可以用多个 # 号,还有 ''' 和 """python中用空格来识别父级和子级的关系Python通常是一行写完一条语句,但如果语句很长,可以使用反斜杠()来实现多行语句...

python 中常见的post请求

在日常的接口测试工作中,模拟接口请求通常有两种方法,利用工具来模拟,比如fiddler,postman,poster,soapUI等利用代码来模拟,使用到一些网络模块,比如HttpClient,或者requests等Fiddler是一个简单的http协议调试代理工具,它界面友好,易于操作,是调试网络,抓取请求的利器之一。Requests包是趁着目前如火如荼的爬虫风潮而流行起来的Python的第三方包,使用简单,对于不需要对网络底层模块有太多了解又想实现接口测试的测试人员来说简直不要太友好。在接口测试中,接口通常是GET请求或者POST请求。以下是对接口测试中常见的四种Post请求数据方式进行一个详细的讲解:post请求主体详解一个正常的post请求主要包括请求行,请求头,请求主体对于get请求来说没有请求主体entity-body。对于post请求而言,不会对发送请求的数据格式进行限制,理论上你可以发任意数据,但是服务器能不能处理就是另一回事了。服务器收到数据后,如何解析数据呢?它会以请求头中的Content-Type设置的内容来进行数据解析。确定好Content-Type的格式之后,...

python 接口自动化--登录

从目前知道系统登录来看一般主要是与数据库存储用户名密码进行比对,若登录域名和业务域名不是同一个还需要获取业务域的coockiehre项目登录demo:__author__='Administrator'importreimportrequests#roleId:3为派单专员deflogin(username,password,roleId):session=requests.Session()url="https://login.daydao.com/login?source=dayHRe"response=session.get(url)#提取jessionid_valueresponse_set_cookie=response.headers['Set-Cookie']print(response_set_cookie)jessionid_search=re.search(r'JSESSIONID=(?P<jessionid_value>.*?);',response_set_cookie,re.S|re.I|re.M)jessionid_value=jessionid...

python re正则

概述https://www.cnblogs.com/zjltt/p/6955965.html元字符元字符在字符集中不起作用用于取消元字符语法说明表达式实例完整匹配的字符串一般字符匹配自身abcabc.匹配任意字符(除外)ab.abc[...]字符集(对应位子可以是字符集中的任意字符)a[bcd]eabeaceade预定义字符集(可以写在字符集[...]中)   d数字:[0-9]adca1cD非数字[^d]aDcabcs空白字符:[<空格>fv]ascacS非空白字符:[^s]aScabcw单词字符:[A-Za-z0-9_]awcabcW非单词字符:[^w]aWcac数量词(用在字符或(...)之后)   *匹配前一个字符0次或无限次abc*ababccc+匹配前一个字符1次或无限次abc+abcabccc?匹配前一个字符0次或1次abc?ababc{m}匹配前一个字符m次ab{2}cabbc{m,n}匹配前一个字符m至n次ab{1,2}cabcabbc*?+???{m,n}?使*+{m,n}变成非贪婪模式&nbs...
IT猿 IT猿·2023-05-06

red'>python requests库上传附件名称为中文时遇到的错误

 浏览器上传附件名称为中文的能正常上传成功,red'>python代码postmultipart/from-data类型不成功功的原因是requests库的原因浏览器上传中文附件时,上传成功的图片red'>pythonrequests库上传中文附件失败时图片结论:从浏览器上传成功和red'>pythonrequests库上传失败观察,主要的是filename不对,red'>python代码上传附件filename*=增员模板多了*号解决方案:修改C:Python34Libsite-packagesurllib3fields.py文件value=email.utils.encode_rfc2231(value,'utf-8')Andchangethelinerightunderneathittothis:value='%s="%s"'%(name,value.decode('utf-8')) ...

python多版本共存

python.exe修改为python2.exe 5.1输入Python2调用Python2.7版本5.2输入Python调用Python3.5版本6.1为Python2.7版本安装科学栈查看已安装科学栈情况和版本python2-mpiplist查看python2-mpipinstall--upgradepip更新python2-mpipinstallnumpy安装6.2为Python3.5版本安装科学栈查看已安装科学栈情况和版本piplistpipinstall--upgradepippipinstallnumpy原文地址:https://blog.csdn.net/dream_an/article/details/51248736...
ymnets ymnets·2020-03-25

python实现微信接口——itchat模块

sudopipinstallitchatitchat.auto_login() 这种方法将会通过微信扫描二维码登录,但是这种登录的方式确实短时间的登录,并不会保留登录的状态,也就是下次登录时还是需要扫描二维码,如果加上hotReload==True,那么就会保留登录的状态,至少在后面的几次登录过程中不会再次扫描二维码,该参数生成一个静态文件itchat.pkl用于存储登录状态这里主要使用的是灰调函数的方法,登录完成后的方法需要赋值在 loginCallback 中退出后的方法,需要赋值在 exitCallback 中.若不设置 loginCallback 的值,将会自动删除二维码图片并清空命令行显示.importitchat,timedeflc():print("FinashLogin!")defec():print("exit")itchat.auto_login(loginCallback=lc,exitCallback=ec)time.sleep()itchat.logout()#强制退出登录sendsend(...

7.Python 循环语句

本章节将向大家介绍Python的循环语句,程序在一般情况下是按顺序执行的。编程语言提供了各种控制结构,允许更复杂的执行路径。循环语句允许我们执行一个语句或语句组多次,下面是在大多数编程语言中的循环语句的一般形式:Python提供了for循环和while循环(在Python中没有do..while循环):循环类型描述while循环在给定的判断条件为true时执行循环体,否则退出循环体。for循环重复执行语句嵌套循环你可以在while循环体中嵌套for循环 循环控制语句可以更改语句执行的顺序。Python支持以下循环控制语句: 控制语句描述break语句在语句块执行过程中终止循环,并且跳出整个循环continue语句在语句块执行过程中终止当前循环,跳出该次循环,执行下一次循环。pass语句pass是空语句,是为了保持程序结构的完整性。...
首页上一页...378379380381382...下一页尾页