爬虫入门【11】Pyspider框架入门—使用HTML和CSS选择器下载小说

首先我们要安装好pyspider,可以参考上一篇文章。从一个web页面抓取信息的过程包括:1、找到页面上包含的URL信息,这个url包含我们想要的信息2、通过HTTP来获取页面内容3、从HTML中提取出信息来4、然后找到更多的URL,回到第2步继续执行~我推荐一部小说给大家《恶魔法则》。今天我们从网上将这部小说的内容按照章节下载下来。小说目录的url为https://www.ybdu.com/xiaoshuo/4/4646/我们现在控制台命令行中输入pyspiderall,命令,然后打开浏览器,输入http://localhost:5000/。点击右面的Create按钮,输入项目名称,点击创建即可。【插入图片,创建项目】创建项目之后,在浏览器出现一个框架,左面是结果显示区,最主要的是一个run命令。右面是我们输入代码的内容。由于这个代码编辑界面不太友好,建议我们将代码拷贝到pycharm中,编辑好或者修改好之后再复制回来运行。【插入图片,空白项目内容】我们如果访问https页面,一定要添加validate_cert=False,否则会报SSL错误。这一步主要是获取目录页。这个方法会获取...

爬虫入门【10】Pyspider框架简介及安装说明

Pyspider是python中的一个很流行的爬虫框架系统,它具有的特点如下:1、可以在Python环境下写脚本2、具有WebUI,脚本编辑器,并且有项目管理和任务监视器以及结果查看。3、支持多种数据库4、支持定义任务优先级,自动重试链接。。。5、分布式架构等等优点。pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫。教程:http://docs.pyspider.org/en/latest/tutorial/文档:http://docs.pyspider.org/发布版本:https://github.com/binux/pyspider/releasesfrompyspider.libs.base_handlerimport*classHandler(BaseHandler):crawl_config={}@every(minutes=24*60)defon_start(self):self.crawl('http://scrapy.org/',callback=self.index_page)@config(age=10*24*60*60)defindex_pa...

ubuntu安装cairo

查看网上大神们的各种安装经过,最后google之后执行下面两句就搞定了:apt-getinstallpython-cairo    apt-getinstalllibcairo2...
ymnets ymnets·2020-03-25

docker安装执行问题

ubuntu14.04上安装docker问题:sudoapt-getupdatecurl -fsSL https://get.docker.com -o get-docker.shsh get-docker.sh查看docker版本:docker versionClient:Version:18.06.3-ceAPIversion:1.38Goversion:go1.10.3Gitcommit:d7080c1Built:WedFeb2002:27:132019OS/Arch:linux/amd64Experimental:falseServer:Engine:Version:18.06.3-ceAPIversion:1.38(minimumversion1.12)Goversion:go1.10.3Gitcommit:d7080c1Built:WedFeb2002:25:382019OS/Arch:linux/amd64Experimental:false然后测试docker是否可以运行:dockerrunhello-worl...

windows系统中安装MongoDB的步骤和使用说明

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。那么在windows如何安装Mongodb和环境搭建呢?一、下载安装包和安装下载地址:https://www.mongodb.com/download-center#communityMongoDB提供了有32位和64位系统的安装包。这里我使用的是Windows版本的 mongodb-win32-x86_64-2008plus-ssl-4.0.6-signed.msi。下载完成后,我们直接点击安装即可。安装完成后,mongoDB 在我们的C:ProgramFilesMongoDB的位置。之后我们需通过一些列配置才可以正常使用,下面我们开始来配置二、配置Mongodb,添加db存储和日志存储文件Mongodb安装完成后,因为还不知道创建的db要存储在哪,所以我们还需要指定db存储、日志存储文件和一些配置。这里我选择在c盘建一个MongoDB(文件...

python3.7成功安装dlib库

不知道为什么python3.7版本安装dlib不能直接用pip,真的超级麻烦。然后看了其他一些博客感觉挺复杂的,boost居然也要设置环境变量,而且问题很多。我大概花了一天的时间才总算弄好,而且也不是很复杂。1.先去下载dlib的安装包,网址在这https://pypi.org/project/dlib/#files,然后解压安装包。2.下载vs,我的vs版本是vs2017,如果没有先装上vs的要先装上喔https://blog.csdn.net/qq_36556893/article/details/79430133。然后设置cl.exe的环境变量(写入Path中,不知道环境变量在哪的去百度就知道了)。https://blog.csdn.net/zhang475546259/article/details/84104368这里有写到如何设置将vs的cl.exe的环境变量。3.用win+R打开命令提示符,输入pipinstallcmake,然后将cmake文件夹中的bin文件的路径写入到环境变量中,同样可参考https://blog.csdn.net/zhang475546259/ar...
开发笔记 开发笔记·2020-03-17

nodejs在windows下的安装配置(使用NVM的方式)

Node.js®isaJavaScriptruntimebuiltonChrome’sV8JavaScriptengine.Node.jsusesanevent-driven,non-blockingI/Omodelthatmakesitlightweightandefficient.Node.js’packageecosystem,npm,isthelargestecosystemofopensourcelibrariesintheworld.译文:Node.js是一个基于ChromeV8引擎的JavaScript运行环境。Node.js使用了一个事件驱动、非阻塞式I/O的模型,使其轻量又高效。Node.js的包管理器npm,是全球最大的开源库生态系统。nodejs在服务端与其他语言相比有个很大的优势就是非阻塞IO,专为网络服务而设计,高效的解决输入和输出,nodejs使用事件循环和线程池的方式来解决高并发的问题,但是对于大量的计算,nodejs却并不适合。nodejs有很多种的安装方式,下面我用一种nvm的方式,来安装nodejs,nvm(nodej...

Redis的安装配置

1.下载    官方下载地址:https://redis.io/download    但是Redis项目不正式支持Windows。不过,Microsoft开放技术小组开发和维护这个Windows端口针对Win64    Windows下载地址(微软的GitHub地址) https://github.com/MSOpenTech/redis/releases    下载完成解压2.启动服务   2.1打开一个 cmd 窗口使用cd命令切换目录到 F:DevelopToolsRedis-x64-3.2.100(你的解压目录)运行 redis-server.exeredis.windows.conf       2.2不切换路径直接输入命令    ...
开发笔记 开发笔记·2020-03-12

React使用Post方式从服务器下载文件

1.问题背景:       之前下载,我都是使用get方式,也就是window.open打开新的标签页的方式,当传递给服务器的下载参数过多的时候,地址栏就会变得特别丑陋。 想在React中使用POST方式下载文件,无奈在网上搜到的React相关的资料过少,把自己经过探索后成功实践的案例与你分享。2.解决方案:      在React中使用ReactDOM创建临时form表单,自动提交。3.解决步骤:   相信大家都是从网上搜到的JQuery代码写的传统处理方式,如下:varquestiontype=$('#QuestionType').combobox('getValue');//得到题型名称varform=$("<form>");//定义一个form表单form.attr('style','display:none');//在form表单中添加查询参数form.attr('method','post');...

MAC上VIRTUALBOX的安装和使用

  去oracle官网下载mac版的virtualBox。官网下载地址:https://www.virtualbox.org/。      下载好后按照向导进行安装即可。 1.新建虚拟机    打开virtualbox,界面如下:      选择左上角的“新建”按钮,设置标题和系统,如果没有特殊要求,按照导向一步步选择默认配置就行,建好后左边会出来一个虚拟机选项。我选的win10,如下图      此时,virtualbox已在硬盘上建好了文件夹和一些预设的文件,这些文件的默认路径是在/Users/user/VirtualBoxVMs,至此,虚拟机已建好 2.设置镜像文件,安装系统  首先找到要往虚拟机里安装的镜像文件,比如.iso文件,我此次安装的是win10的镜像,没有镜像的需要在网上下载对应系统的镜像。  设置->存储->没有盘片->选择虚拟光盘文件    点击启动,按照正常装机操作即可,先看看有没有分区,没有的话要做分区。我安装的是win10,安装完成后如下图: 1.复制粘贴 ...
开发笔记 开发笔记·2020-03-08

windows怎样看Python的安装路径

1、进入windows的cmd命令界面;2、在命令行界面输入:wherepython。...

python库之itchat的简介、安装、使用方法之详细攻略

itchat的简介    iTwitter是一个开放源码API,是一个常用的中国社交网络应用程序。在Python中通过ITQualChina访问个人聊天帐户从来都不容易。一个微信机器人可以处理所有基本的消息,只有少于30行代码。它类似于ITCHATMP(用于微博客海量平台的API),学习一次并获得两个工具。现在Wechat是个人生活的一个重要部分,希望这个回购可以帮助您扩展您的个人网络聊天帐户的功能和更好的用户体验与微信。 pipinstallitchat importitchatitchat.auto_login()itchat.send('Hello,filehelper',toUserName='filehelper') ...

PHP实现m3u8并发下载

直接上代码<?php//php下载m3u8文件$url=$argv['1'];if(!file_exists('./tmp/')){if(!mkdir('./tmp/')){die('请手动在当前目录创建tmp目录');}}$indexPage=file_get_contents($url);preg_match_all('/.*.ts/',$indexPage,$matches);if(empty($matches)){die('m3u8文件格式错误');}go(function()use($matches){$chan=newchan(100);//最大并发数foreach($matches['0']as$key=>$value){if(file_exists('./tmp/'.$key.'.ts')){continue;}$chan->push('xx');go(function()use($key,$value,$chan){echo"Addtask:".$key;while(1){$rs=co_curl($value);if(strlen($rs)>0...

VirtualBox安装centOS6.2

1.下载centOS6.2镜像  地址:http://mirrors.163.com/centos/6.2/isos/  i386是32位系统,x86_64是x86架构的64位系统。2.虚拟机设置  使用VirtualBox4.1.12,内存512,硬盘8G。3.选择ios,然后启动虚拟机。4.安装  1.首先会出来一个选择菜单,选第一个即可。  2.后边会有各种选择,按照自己的需要选择即可。5.安装完成后,重启。  1.重启后只有一个console界面,看网上说默认低配界面就是字符界面,内存至少得389M才会启动图形界面。可是我设置到了1G都不启动。  2.又看到帖子说,需要修改/etc/inittab中的默认启动项为5,然后发现还是不行  3.自己觉得应该是没有安装图形界面,但是一个镜像有3.55G,不应该啊。而且安装过程也没有要我选择是否安装图像界面,fuck!  4.运行:yumgroupinstal...
开发笔记 开发笔记·2020-03-03

FreeRDP的安装方法

偶然在网上看到了FreeRDP,编译安装后,果然好用。文档是记录整个安装过程的,备忘!        官方网站:http://www.freerdp.com/        安装完后运行的命令是:xfreerdp 192.168.1.101 -uadministrator-p123        功能说明(摘自百度快照):        1、连接机器ip地址是192.168.1.101,        2、登录远程机的账户密码是:-uadministrator-p123        3、使用全...
开发笔记 开发笔记·2020-03-03
首页上一页...410411412413414下一页尾页