#HO

python爬虫之初始scrapy

 简介:  Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。  其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的,也可以应用在获取API所返回的数据(例如 Amaz...
代码星球 代码星球·2020-04-02

python爬虫之Anaconda安装

Anaconda是一个用于科学计算的Python发行版,支持Linux,Mac,Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和...

python爬虫之scrapy安装(一)

  Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。  Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、si...
代码星球 代码星球·2020-04-02

python爬虫之redis环境简单部署

Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。 Redis与其他key-value缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list...

python爬虫之Phantomjs安装和使用

  PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web标准:DOM操作,CSS选择器,JSON,Canvas以及SVG。  1、无UI界面的网站测试  2、屏幕快照  3、页面操作自动化 官方文档:http://phantomjs.org/api/command-lin...

python爬虫之win7Mongod安装使用

1、下载地址:https://www.mongodb.com/download-center#community下载完成以后下一步下一步安装。 安装路径还需要建立一个数据库存储位置C:mongodbdatadb 2、添加环境变量,然后打开cmd执行如下命令告诉数据库数据存储位置。#mongod--d...

python爬虫之PyQuery的基本使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery是Python仿照jQuery的严格实现。语法与jQuery几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readth...

python爬虫之xpath的基本使用

一、简介  XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3CXSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。   参照二、安装pip3installlxml 三、使用  1、导入fromlxmlimpor...

python爬虫之git的使用(windows下pycharm使用)

    相信很多同学学会了git或者github以后都不知道怎么跟windows上的pycharm连在一起工作,那么下面我们开始介绍简单的安装和使用方法。一、安装  1、首先你的有一个github的账户。注册什么的就不在这里说了,百度一大片。  2、配置pycharm的github信息,一定要点击t...

python爬虫之git的团队协作

一、Git实践:  commit,push,pull,status,add基本是最常用的几个命令。  1、首先我在github上创建了一个项目,然后我在本地的文件建立了一个普通的目录(git_data)。使用gitclone命令将github远程仓库在本地克隆出一个本地仓库。  2、接着,既然是项目可能不是一个人完成的...

python爬虫之git的使用(origin说明)

1、首先我们回忆两个命令#gitremoteaddorigin 远程仓库链接#gitpush-uoriginmaster   我们一起看看这个命令,git是git的一级命令,push就是下载,-u应该使用用账户验证maser就是分支的名字(前面我们说过),那么这个origin是个什么鬼?  大家看看...

python爬虫之git的使用(coding.net的使用)

 1、注册coding.net账号,然后登陆。2、创建项目 套路和github都一样。1.1、我们在远程仓库上创建了一个仓库,这样的话,我们需要在本地随便建立一个文件普通文件夹,进去以后,执行gitclone链接这个命令,就可以把远程仓库的版本库同步下来。   &nbs...

python爬虫之git的使用(github的使用)

   上面博文中我们简单的了解了一下基本的git操作,但是我们都是将代码放到了本地的仓库里面,但是如果我们是一个团队开发的话,肯定不会放到每个人的本地,必须得有个统一的地方存放代码,国外的大家都在使用github,很多的开源项目都在github上面,但是这个使用起来呢一是得翻墙,二是公开的仓库是免费的,私有的...

python爬虫之git的使用

 一、简单认识:1、初始化文件夹为版本控制文件夹,首先建立一个文件夹,进入这个文件夹以后输入gitinit初始化这个文件夹。2、Git几种位置概念1、本地代码:本地更改完代码以后,虽然是存放在git的文件夹里面,但是没有添加到待提交列表里面。2、待提交列表:执行完gitadd文件名,但是未执行gitcommi...
代码星球 代码星球·2020-04-02

python爬虫之git的安装

 一、初始1、发展历史*最开始没有对代码的管理,导致很多东西混乱和丢失。*后来大家想了一个办法,用最简单最笨的方法,各种复制文件夹。*然后就出现了版本控制的工具。  1、单机版:RCS(1982),SCCS(1972)  2、客户端-服务器:CVS(1986)Subversion(2000)  3、分布式(多...
代码星球 代码星球·2020-04-02
首页上一页...471472473474475...下一页尾页