python爬虫的搜索结果_第376页_51dev.com 技术开发者社区

python3.4学习笔记(二) 类型判断，异常处理，终止程序

python3.4学习笔记(二)类型判断，异常处理，终止程序，实例代码：1#idle中按F5可以运行代码2#引入外部模块importxxx3#random模块，randint(开始数，结束数)产生整数随机数4importrandom5importsys6importos7secret=random.randint(1,10)8temp=input("请输入一个数字")9#print(type(temp))#<class'str'>类型判断10#print(isinstance(temp,int))#False11#异常处理tryexceptfinally没有catch函数12try:13guess=int(temp)14except:15print("输入的不是数字，程序终止了")#注释内容不能在逻辑代码块里独立一行进行16os._exit(0)#os._exit()用于在线程中退出,sys.exit()用于在主线程中退出，exit(0)#终止退出程序，会关闭窗口17count=0;18whileguess!=secret:#猜错的时候才进入循环条件19ifcount==0...

IT猿·2020-03-26

Python eval 函数妙用

转自：https://www.cnblogs.com/liu-shuai/eval　　功能：将字符串str当成有效的表达式来求值并返回计算结果。　　语法： eval(source[,globals[,locals]])->value　　参数：　　　　source：一个Python表达式或函数compile()返回的代码对象　　　　globals：可选。必须是dictionary　　　　locals：可选。任意map对象　　实例展示：1可以把list,tuple,dict和string相互转化。2#################################################3字符串转换成列表4>>>a="[[1,2],[3,4],[5,6],[7,8],[9,0]]"5>>>type(a)6<type'str'>7>>>b=eval(a)8>>>printb9[[1,2],[3,4],[5,6],[7,8],[9,0]]10>>>type(b)11&l...

IT猿·2023-05-06

Python tips: 什么是*args和**kwargs？

转：http://www.cnblogs.com/fengmk2/archive/2008/04/21/1163766.html先来看个例子：deffoo(*args,**kwargs):print'args=',argsprint'kwargs=',kwargsprint'---------------------------------------'if__name__=='__main__':foo(1,2,3,4)foo(a=1,b=2,c=3)foo(1,2,3,4,a=1,b=2,c=3)foo('a',1,None,a=1,b='2',c=3)输出结果如下：args= (1,2,3,4) kwargs= {} --------------------------------------- args= () kwargs= {'a':1,'c':3,'b':2} --------------------------------------- args= (1,2,3...

IT猿·2023-05-06

python slots 详解（上篇）

转自：http://blog.csdn.net/sxingming/article/details/52892640 python中的new-styleclass要求继承Python中的一个内建类型，一般继承object，也可以继承list或者dict等其他的内建类型。在python新式类中，可以定义一个变量__slots__，它的作用是阻止在实例化类时为实例分配dict，默认情况下每个类都会有一个dict,通过__dict__访问，这个dict维护了这个实例的所有属性，举例如下： [python] viewplain copy class base(object): var=9 #类变量 def __init__(self): pass &n...

IT猿·2023-05-06

Python ：用两个栈实现队列

转自：http://blog.csdn.net/Lynette_bb/article/details/75092745牛客网上的剑指offer的在线编程：用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。[python] viewplain copy # -*- coding:utf-8 -*- class Solution: def __init__(self): self.stack1 = [] self.stack2 = [] ...

IT猿·2023-05-06

python——文件夹相关操作

原文：https://blog.csdn.net/Crystalqy/article/details/94187539 python获取当前路径work_dir=os.getcwd() 返回path指定的文件夹包含的文件或文件夹的名字的列表：os.listdir(work_dir) 判断是否是目录os.path.isdir(file_path) 移动到制定的目录下：os.chdir(file_path) 执行输入的命令result=os.popen(inputStr)#执行输入的命令print(result.read())#打印命令执行的结果接收输入：inputStr=input("请输入："); ...

IT猿·2023-05-06

python——多线程与多进程

原文：https://www.cnblogs.com/xingyucn/p/10219202.html 引用虫师的解释：/计算机程序只不过是磁盘中可执行的，二进制（或其它类型）的数据。它们只有在被读取到内存中，被操作系统调用的时候才开始它们的生命期。进程（有时被称为重量级进程）是程序的一次执行。每个进程都有自己的地址空间，内存，数据栈以及其它记录其运行轨迹的辅助数据。操作系统管理在其上运行的所有进程，并为这些进程公平地分配时间。线程（有时被称为轻量级进程）跟进程有些相似，不同的是，所有的线程运行在同一个进程中，共享相同的运行环境。我们可以想像成是在主进程或“主线程”中并行运行的“迷你进程”。我们直接编写的爬虫程序是单线程的，在数据需求量不大时它能够满足我们的需求。但如果数据量很大，比如要通过访问数百数千个url去爬取数据，单线程必须等待当前url访问完毕并且数据提取保存完成后才可以对下一个url进行操作，一次只能对一个url进行操作；我们使用多线程/多进程的话，就可以实现对多个url同时进行操作。这样就能大大缩减了爬...

IT猿·2023-05-06

python——拉勾网信息爬取

原文：https://www.cnblogs.com/sui776265233/p/11146969.html 阅读目录一、爬取和分析相关依赖包二、分析网页结构三、数据清洗后入库四、数据可视化展示五、爬虫及可视化完整代码爬取拉勾网关于python职位相关的数据信息，并将爬取的数据已csv各式存入文件，然后对csv文件相关字段的数据进行清洗，并对数据可视化展示，包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析，其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。回到顶部一、爬取和分析相关依赖包Python版本：Python3.6requests:下载网页math:向上取整time:暂停进程pandas：数据分析并保存为csv文件matplotlib：绘图pyecharts：绘图statsmodels：统计建模wordcloud、scipy、jieba：生成中文词云pylab：设置画图能显示中文在以上安装或使用过程中可能读者会遇到安装或导入失败等问题自行百度，选择依赖包的合适版本回到顶部二、分析网页结构通过Chrome搜索'python...

IT猿·2023-05-06

python——beautifulsoup中.string与.text的区别

原文：https://blog.csdn.net/weixin_43891121/article/details/87989080 今天用BeautifulSoup解析页面时遇到了.string返回None的问题，待解析的源码如下：<aclass=“bets-name”href="/stock/sh601766.html">中国中车(<span>601766</span>)</a>使用如下代码来获得tag中的字符串：soup=BeautifulSoup(html,‘html.parser’)name=soup.find_all(‘a’,attrs={‘class’:‘bets-name’})[0].string这段代码来获得字符串时，返回的是None，不解，于是去查了BeautifulSoup的官方文档，发现.string方法在tag包含多个子节点时，tag无法确定.string方法应该调用哪个子节点的内容，所...

IT猿·2023-05-06

python——beautifulsoup标签搜索以及信息提取

原文：https://www.cnblogs.com/my1e3/p/6657926.html 一、查找a标签（1）查找所有a标签>>>forxinsoup.find_all('a'):print(x)<aclass="sister"href="http://example.com/elsie"id="link1">Elsie</a><aclass="sister"href="http://example.com/lacie"id="link2">Lacie</a><aclass="sister"href="http://example.com/tillie"id="link3">Tillie</a>（2）查找所有a标签，且属性值href中需要包含关键字“lacie”>>>forxinsoup.find_all('a',href=re.compile('lacie')):print(x)<aclass="sister"href="http:...

IT猿·2023-05-06

【win7 + win server 2008】设置定时任务，设置.bat 文件去执行php脚本 == 用来配合爬虫程序简直不要太爽

WindowsServer2008中使用计划任务定时执行BATbat进行PHP脚本的执行一、首先进行任务管理器设置每隔1分钟执行.BAT文件配置首先WindowsServer2008不同于其他服务器操作系统和WindowsServer2003有着很大的区别，计划任务的名称是“任务计划程序”不在控制面板里，而是在“管理工具”里。由于服务器需要做些任务，定时执行，自己写程序吧，麻烦，所以采用BAT进行代替操作，网络上很多人都在说每分钟执行怎么配置，今天我们就配置一下。打开“任务计划程序”–点击“任务计划程序库”在右则会看到操作项里有“创建基本任务”和“创建任务”如图所示：点击“创建任务”后如图所示：填写好相应的名称和勾选好必要的条件选择“触发器”选项，点击“新建”，创建任务执行时间，“重复任务间隔&rdqu...

IT猿·2020-03-25

Python TCP通信网络编程

最近在看廖雪峰老师的基础教程（http://www.liaoxuefeng.com/），今天实现了一下简单Python的Socket的网络编程。 1.Socket网络编程Socket是网络编程的一个抽象概念。通常我们用一个Socket表示“打开了一个网络链接”，而打开一个Socket需要知道目标计算机的IP地址和端口号，再指定协议类型即可。 2.客户端大多数连接都是可靠的TCP连接。创建TCP连接时，主动发起连接的叫客户端，被动响应连接的叫服务器。举个例子，当我们在浏览器中访问新浪时，我们自己的计算机就是客户端，浏览器会主动向新浪的服务器发起连接。如果一切顺利，新浪的服务器接受了我们的连接，一个TCP连接就建立起来的，后面的通信就是发送网页内容了。 3.服务器和客户端之间Socket通信主要实现了服务器和客户端之间的Socket通信：服务器服务器进程首先要绑定一个端口并监听来自其他客户端的连接。如果某个客户端连接过...

IT猿·2020-03-25

利用Python进行文章特征提取（二）

本篇blog是利用Python进行文章特征提取的续篇，主要介绍构建带TF-IDF权重的文章特征向量。In [1]:#带TF-IDF权重的扩展词库#在第一篇文档里主要是利用词库模型简单判断单词是否在文档中出现。然而与单词的顺序、频率无关。然后词的频率对文档更有意义。因此本文将词频加入特征向量In [2]:#1.计算单词在文档中的频率fromsklearn.feature_extraction.textimportCountVectorizerIn [5]:documents=['Thedogateasandwich,thewizardtransfiguredasandwich,andIateasandwich']vector=CountVectorizer(stop_words='english')print(vector.fit_transform(documents).todense())print(vector.vocabulary_)[[21311]]{u'sandwich':2,u'wizard':4,u'dog':1,u'transfigured...

IT猿·2020-03-25

利用Python进行文章特征提取（一）

#文字特征提取词库模型（bagofwords）2016年2月26，星期五#1.词库表示法In [9]:#sklearn的CountVectorizer类能够把文档词块化（tokenize），代码如下fromsklearn.feature_extraction.textimportCountVectorizercorpus=['UNCplayedDukeinbasketball','Dukelostthebasketballgame','Iateasandwich']vectorizer=CountVectorizer()corpusTotoken=vectorizer.fit_transform(corpus).todense()corpusTotoken#[[1,1,0,1,0,1,0,1],#[1,1,1,0,1,0,1,0]]vectorizer.vocabulary_#{u'ate':0,#u'basketball':1,#u'duke':2,#u'game':3,#u'in':4,#u'lost':5,#u'played':6,#u'sandwich':7,#u't...

IT猿·2020-03-25

python3.4学习笔记(二) 类型判断，异常处理，终止程序

推荐一些相见恨晚的 Python 库 「一」

Python eval 函数妙用

Python tips: 什么是*args和**kwargs？

python __slots__ 详解（上篇）

Python ：用两个栈实现队列

python——文件夹相关操作

python——多线程与多进程

python——拉勾网信息爬取

python——beautifulsoup中.string与.text的区别

python——beautifulsoup标签搜索以及信息提取

【win7 + win server 2008】设置定时任务，设置.bat 文件去执行php脚本 == 用来配合爬虫程序简直不要太爽

Python TCP通信网络编程

利用Python进行文章特征提取（二）

利用Python进行文章特征提取（一）

推荐一些相见恨晚的 Python 库「一」

python slots 详解（上篇）