python爬虫主题的文章列表，还有python爬虫的技术要点_第10页

python爬虫之git的使用

一、简单认识：1、初始化文件夹为版本控制文件夹，首先建立一个文件夹，进入这个文件夹以后输入gitinit初始化这个文件夹。2、Git几种位置概念1、本地代码：本地更改完代码以后，虽然是存放在git的文件夹里面，但是没有添加到待提交列表里面。2、待提交列表：执行完gitadd文件名，但是未执行gitcommi...

代码星球 ·2020-04-02

python爬虫之git的安装

一、初始1、发展历史*最开始没有对代码的管理，导致很多东西混乱和丢失。*后来大家想了一个办法，用最简单最笨的方法，各种复制文件夹。*然后就出现了版本控制的工具。　　1、单机版：RCS（1982），SCCS(1972)　　2、客户端-服务器：CVS（1986）Subversion（2000）　　3、分布式（多...

代码星球 ·2020-04-02

python爬虫之初始Selenium

1、初始　　Selenium[1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7,8,9,10,11），MozillaFirefox，Safari，GoogleChrome，Opera等。这个工具的主要功能包括：测试...

代码星球 ·2020-04-02

python爬虫之MongoDB测试环境安装

一. 下载从http://www.mongodb.org/downloads地址中下载：mongodb-linux-x86_64-2.4.11.tar 二. 安装1>设置mongoDB目录[root@vm13home]#cd/home/apps &n...

代码星球 ·2020-04-02

python爬虫之pandas

　　　PythonDataAnalysisLibrary或pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为...

代码星球 ·2020-04-02

python爬虫之正则表达式

　　正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配...

代码星球 ·2020-04-02

python爬虫之Beautiful Soup的基本使用

　　简单来说，BeautifulSoup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：　　BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程...

代码星球 ·2020-04-02

python爬虫之requests的基本使用

　　Requests是用python语言基于urllib编写的，采用的是Apache2Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。 pip快速安装pipinstallrequests 　　1、先上一串代码impor...

代码星球 ·2020-04-02

python爬虫神器PyQuery的使用方法

你是否觉得XPath的用法多少有点晦涩难记呢？你是否觉得BeautifulSoup的语法多少有些悭吝难懂呢？你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢？你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢？嗯，那么，前端大大们的福音来了，PyQuery来了，乍听名字，你一定联想到了j...

代码星球 ·2020-03-29

python爬虫系列：做一个简单的动态代理池

自动1、设置动态的useragent1importurllib.requestasure2importurllib.parseasupa3importrandom4frombs4importBeautifulSoup56#动态设置useragent:7defset_user_agent():8agent_list=[9...

IT猿 ·2020-03-25

Python爬虫: 用scrapy写的抓取网页内容的示例

scrapy是一个专门用于写爬虫的python框架。它将抓取页面内容，处理结果，执行做了很好的模块化处理。1.安装scrapy 准备环境：一定要安装pip,因为用sudoapt-get安装的scrapy版本很旧，会出现很多问题，在ubuntu16.0.4下执行sudoapt-getinstalls...

开发笔记 ·2020-03-01

Python中str.replace()的使用方法

Example：　　target=today+os.sep+now+'_'+comment.replace('','_')+'.zip' #today被定义为根目录+今日时间，同理，now定义为为此时时间，例如为09.01.16:34...

开发笔记 ·2024-10-21

python批量修改文件夹下所有文件名并按顺序命名

importos#设置需要修改的文件夹路径folder_path='C:\Users\Administrator\Desktop\酒店'yzs=0#获取文件夹中的所有文件名file_list=os.listdir(folder_path)new_suffix='new_'#遍历文件名，修改文件名forfilenamei...

开发笔记 ·2024-10-10

Python3.0与2.X版本的区别实例分析

Python3.x是Python2.x的下一个重大版本，其中有一些值得注意的区别。Python3.0中包含了许多不兼容的变化，这意味着在迁移到3.0之前，必须进行代码更改和测试。本文将介绍主要的差异，并给出一些实例来说明不同点。语法print语法：Python2.x中的print语法是 printx，但在Py...

开发笔记 ·2024-09-29

Python基础代码大全

python基础代码的大全：一、基本语法1.打印输出1print("Hello,World!")2.变量赋值12x=10y="Hello"3.条件语句立即学习“Python免费学习笔记（深入）”；123456ifx>5: &nb...

开发笔记 ·2024-09-26