为您找到搜索结果:815个
Python爬虫小白入门(八)Python 爬虫 – 搭建环境
搭建Python爬虫环境,需要安装下面2个软件包:requests用于执行HTTP请求BeautifulSoup4 分析HTML页面可以使用pip安装这些依赖项:pipinstallrequestsBeautifulSoup4安装输出Kevin@QIKEGUC:UsersKevin>pipinstallrequestsBeautifulSoup4CollectingrequestsDownloadinghttps://files.pythonhosted.org/packages/51/bd/23c926cd341ea6b7dd0b2a00aba99ae0f828be89d72b2190f27c11d4b7fb/requests-2.22.0-py2.py3-none-any.whl(57kB)|████████████████████████████████|61kB15kB/sCollectingBeautifulSoup4Downloadinghttps://files.pythonhosted.org/packages/1a/b7/34eec2fe5a49718...
Python爬虫小白入门(六)爬取披头士乐队历年专辑封面-网易云音乐
前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图。通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小。我的例子怎么都是爬取图片?(谁让你总是跟设计师小伙伴一起玩耍。。。)看来图片对于设计师来说还是有着很深的情节,那就看他用这些图片能做出什么样的作品啦,期待一下,后续会展示一下他的作品。其实爬取网易云音乐跟之前爬取的网站稍稍有点不同,当然,爬虫写的多了就觉得套路都是固定的,见招拆招而已。我的运行环境如下:系统版本Windows10。Python版本Python3.5,推荐使用Anaconda这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。IDE我使用的是PyCharm,是专门为Python开发的IDE。这是JetBrians的产品,点我下载。上面提到过,网易云音乐的网页跟普通的网页相比主要有两点不同:网页是js动态加载的使用了iframe框架所以,首先,网页请求不能使用requests库,需要使用Selenium+PhatomJS。其...
Python爬虫小白入门(五)PhatomJS+Selenium第二篇
前文介绍了PhatomJS和Selenium的用法,工具准备完毕,我们来看看如何使用它们来改造我们之前写的小爬虫。我们的目的是模拟页面下拉到底部,然后页面会刷出新的内容,每次会加载10张新图片。大体思路是,用Selenium+PhatomJS来请求网页,页面加载后模拟下拉操作,可以根据想要获取的图片多少来选择下拉的次数,然后再获取网页中的全部内容。我的运行环境如下:系统版本Windows10。Python版本Python3.5,推荐使用Anaconda这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。IDE我使用的是PyCharm,是专门为Python开发的IDE。这是JetBrians的产品,点我下载。3.1模拟下拉操作要想实现网页的下拉操作,需要使用Selenium的一个方法来执行js代码。该方法如下:driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")由此可见,使用execute_script方法...
node爬虫之图片下载
背景:针对一些想换头像的玩家,而又不知道用什么头像的,作为一名代码爱好者,能用程序解决的,就不用程序来换头像,说干就干,然后就整理了一下。安装node环境node-vnode版本最好在8.11.1以上assets是存放所下载的图片static是静态资源页面eg.js是下载图片示例(nodeeg.js)img.json是网页所获取的json数据index.js属于服务端npminit(会生成一个package.json)npmiexpress--save-devnpmicheerio--save-devnpmisuperagent--save-devnpmisuperagent-charset--save-devnpmirequest--save-devSuperAgent是一个轻量级、灵活的、易读的、低学习曲线的客户端请求代理模块,使用在NodeJS环境中superagent-charset防止爬取下来的数据乱码,更改字符格式cheerio是jquery核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对DOM进行操作的地方。request的功能比较强大,在这里只是为了下...
vue 数据重构 案例
//后台返回varoldList=[{'groupName':'权限管理','id':'10','name':'初级权限','type':"10010",'appId':1},{'groupName':'权限管理','id':'11','name':'中级权限','type':"10011",'appId':1},{'groupName':'用户管理','id':'20','name':'初级用户','type':"10020",'appId':1},{'groupName':'用户管理','id':'21','name':'中级用户','type':"10021",'appId':1},{'groupName':'收款','id':'30','name':'微信收款','type':"10030",'appId':1},{'groupName':'收款','id':'31','name':'支付宝收款','type':"10031",'appId':1}]//重构之后varnewList=[{groupName:'权限管理',list:[{name:'初级权限',id:'10',ty...
革命就是请客吃饭(案例分析吧)
前不久路过南京,拜会了本科同学.刚好他要见个青年才俊谈些事情,于是就神神秘秘地把我拉了过去.一路高谈阔论,指点江山,忆往昔峥嵘岁月之后,此次"拜访"的目的也渐渐清晰起来.我们所要见的人是位年轻的创业者,他有些移动互联网的点子,想和我们分享下,并尝试下寻求合作的机会. 目的地是在南艺,说真的那地段挺好的.远远地就看见了南京广播电视塔.虽不比上海东方明珠塔的气势磅礴(浦东陆家嘴的建筑群的衬托),南京电视塔却让人觉得格外舒适和惬意. 见面寒暄后,青年才俊就带我们到他的工作室.这边的工作室都是搞艺术的"民间组织",有从事书法的,有专注古典乐器的.环境的优雅让我这个土生土长的理科生大呼过瘾.进入房间后,深深地被震撼了,文科生对房间的布置和装修果然有他独到之处.房间虽不大,但是每一样布局都井然有序,又恰到好处.说实话,这也是我想要的那种创业氛围,人不多,当让人觉得舒适和充满活力. 他想做一款移动社交类的应用,名字叫做"请吃饭".大意是:有人因各种原因请发英雄帖请吃饭,好友接受之后,这个饭局就开始了.为了增加互动性,让这款产品额外增加了游戏.该款APP本质的盈利点在于吃饭上,可以引入商家合...
Python爬虫小白入门(四)PhatomJS+Selenium第一篇
在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页。所以不能够通过页码获取页面的url来分别发送网络请求。我也尝试了其他方式,比如下拉的时候监控http请求,看看请求是否有规律可以模拟。后来发现请求并没有规律,也就是不能够模拟http请求来获取新的数据(也可能是我水平有限,哪位童鞋找到了规律一定要告诉我哦)。那么就只有模拟下拉操作了。想要模拟下拉操作,我们需要用到两个工具,一个是PhatomJs,一个是Selenium。PhatomJS其实就是一个没有界面的浏览器,最主要的功能是能够读取js加载的页面。Selenium实质上是一个自动化测试工具,能够模拟用户的一些行为操作,比如下拉网页。一直有个说法,Python+PhatomJS+Selenium是爬虫的无敌三件套,基本能够实现所有爬虫需求。OK,我们分别介绍下他们的使用,然后开始我们的实战。我的运行环境如下:系统版本Windows10。Python版本Python3.5,推荐使用Anaconda这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去A...
Python爬虫小白入门(三)BeautifulSoup库
上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。updateon2016-12-28:之前忘记给BeautifulSoup的官网了,今天补上,顺便再补点BeautifulSoup的用法。updateon2017-08-16:很多网友留言说Unsplash网站改版了,很多内容是动态加载的。所以建议动态加载的内容使用PhantomJS而不是Request库进行请求,如果使用PhantomJS请看我的下一篇博客,如果是定位html文档使用的class等名字更改的话,建议大家根据更改后的内容进行定位,学爬虫重要的是爬取数据的逻辑,逻辑掌握了网站怎么变都不重要啦。我的运行环境如下:系统版本Windows10。Python版本Python3.5,推荐使用Anaconda这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。IDE我使用的是PyCharm,是专门为Python开发的I...
Python爬虫小白入门(二)requests库
为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西,所以后文中可能会在不同地方使用不同称谓,不要迷惑哦。结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材,其中有个网站Unsplash里面美图特别多,所以想要把里面的图片都保存下来,这样咱们的小爬虫就登场了。说干就干,赶紧开始吧。先来准备环境系统版本我使用的是Windows10。好多小伙伴使用的是Mac,配置上基本相同。由于我多年混迹于微软的开发平台,经常使用VisualStudio、SQLServer啥的,用Windows用习惯了(其实主要是因为Qiong穷!)。所以这个教程我就以Windows系统为例了。Python版本我电脑装了好多个Python版本(学一个装一个。。。),不过推荐使用Anaconda这个科学计算版本,主要是因为它自带一个包管理工具,可以解决有些包安装错误的问题。去Anaconda官网,选择Python3.5版本,然后下载安装。IDE我使用的是PyCharm,是专门为Python开发的...
Python爬虫小白入门(一)入门介绍
你是不是在为想收集数据而不知道如何收集而着急?你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼?Bingo!你没有看错,这就是专门面向小白学习爬虫而写的!我会采用实例的方式,把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。我们使用Python来写爬虫,一方面因为Python是一个特别适合变成入门的语言,另一方面,Python也有很多爬虫相关的工具包,能够简单快速的开发出我们的小爬虫。本系列采用Python3.5版本,毕竟2.7会慢慢退出历史舞台~那么,接下来,你得知道什么是爬虫、爬虫从哪里爬取数据的,以及,学习爬虫都要学习哪些东西。来看看百度百科是如何定义的网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。什么?没看懂?没关系,我来给你解释一下打开一个网页,里面有网页内容吧,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。这样是不是更清晰了呢?既...
Quartz入门案例
Quartz依赖的jar包,pom如下:<dependency><groupId>org.quartz-scheduler</groupId><artifactId>quartz</artifactId><version>2.2.1</version></dependency><dependency><groupId>org.quartz-scheduler</groupId><artifactId>quartz-jobs</artifactId><version>2.2.1</version></dependency>Java代码程序入口如下如下:1packagecom.test.quartz;23importjava.util.Date;45importorg.quartz.CronScheduleBuilder;6importorg.quartz.JobBuilder;7importorg....
(24/24) webpack小案例--自己动手用webpack构建一个React的开发环境
通过前面的学习,对webpack有了更深的认识,故此节我们就利用前面相关知识自己动手用webpack构建一个React的开发环境,就算是一个小案例吧。注:此处使用的开发工具是Webstorm。在安装webpack之前,我们先建立一个文件夹,并利用开发工具webstorm打开刚才新建的文件夹(或者新建项目,其项目目录选择刚才新建的文件夹),然后使用webstorm终端初始化webpack项目,命令如下:npminit-y-y:表示默认初始化所有选项。 初始化成功后可以在项目根目录下看到package.json文件。package.json文件建立好以后,开始安装webpack,同样是在webstorm终端输入安装命令(可以使用npm安装也可以使用cnpm安装):npminstall--save-devwebpack@3.8.1--save-dev:安装到该项目目录中。 注意:此处为了兼容,webpack使用3.8.1版本。安装好后,则会在package.json里看到当前安装的webapck版本号。在项目根目录建立webpack.config.js文件,这个文件是进行...
Spring Boot+Socket实现与html页面的长连接,客户端给服务器端发消息,服务器给客户端轮询发送消息,附案例源码
客户端给所有在线用户发送消息客户端给指定在线用户发送消息服务器给客户端发送消息(轮询方式)注意:socket只是实现一些简单的功能,具体的还需根据自身情况,代码稍微改造下 <?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0https://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent&...
C# NPOI 读取Excel数据,附案例源码
注意:需要引入NPOI类库usingNPOI.HSSF.UserModel;usingNPOI.SS.UserModel;usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.IO;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows.Forms;namespaceNPOIDemo{publicpartialclassForm1:Form{publicForm1(){InitializeComponent();}privateconstintDEFAULT_CHECK_CELL_NUM=4;privatevoidbutton1_Click(objectsender,EventArgse){try{DataTabledt=ReadExcelData(@"C:UsersappleDesk...
网络爬虫python教程
http://blog.csdn.net/column/details/why-bug.html 代码具体讲解见(51CTO):http://edu.51cto.com/course/course_id-581.html韩寒博客:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html...