51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#爬取
根据ISBN爬取豆瓣图书信息
frombs4importBeautifulSoupimporttimeimportrandomimportpandasaspdimporturllib.requestimportpymongoimportsysimportreclassDouban():def__init__(self):self.__r_publi...
开发笔记
·
2022-03-18
根据
ISBN
爬取
豆瓣
图书
[01-01] 示例:用Java爬取新闻
根据爬虫的基本原理,先写一个返回指定url的网页内容的方法:publicclassCrawlerUtil{/***获取主网页的内容**@paramurl网页url*@paramrequestMethod请求方式*@paramreferpost内容*@return网页内容*/publicstaticStringsendH...
代码星球
·
2021-02-21
01-01
示例
Java
爬取
新闻
python自动爬取指定用户视频
importrandomimporttimeimportrequestsimportredeflog(url):session=requests.session()headers={'User-Agent':'Mozilla/5.0(iPhone;CPUiPhoneOS13_2_3likeMacOSX)AppleWeb...
代码星球
·
2021-02-21
python
自动
爬取
指定
用户
小白爬取单个微博用户的评论
对“深圳移动”微博用户爬取所有微博及其评论。语言:python2.7使用的库:importrequests微博账号:网上购买若干IP代理:网上租动态IP的代理服务器User-agent:网上搜索若干2.手机微博看不到翻页,是一直往下加载的(一共1671页),但是其json格式的数据仍然以翻页的形式呈现。ht...
代码星球
·
2021-02-15
小白
爬取
单个
微博
用户
python爬虫之小说爬取
废话不多说,直接进入正题。今天我要爬取的网站是起点中文网,内容是一部小说。首先是引入库fromurllib.requestimporturlopenfrombs4importBeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2Rf...
代码星球
·
2021-02-09
python
爬虫
小说
爬取
java爬取网页Unicode转UTF-8中文
unicode编码简而言之就是将每一个字符用16位2进制数标识。但是通常都用4位的16进制数标识。例如:1)中文字符串"你好"的unicode码为:u60u597d; 2)英文字符串"ab"的unicode码为:u0061u0062; 其中u是标识unicode码用的,后面的4位16进制数则...
代码星球
·
2021-01-24
java
爬取
网页
Unicode
UTF-8
python 爬取妹子
爬取妹子图片2019-06-13环境WIN101903python3.7.3 个人习惯先在IDLE中进行调试importrequestsfrombs4importBeautifulSoupurl='https://www.mzitu.com/'response=requests.get(url=url)pri...
代码星球
·
2020-12-26
python
爬取
妹子
爬取校花网
1.拿到索引页的链接importrequests#pip3installrequests请求库requests相较于urlibra的封装程度更高。importre'''http://www.xiaohuar.com/list-3-0.html第3页http://www.xiaohuar.com/list-3...
代码星球
·
2020-12-25
爬取
校花
爬虫是什么吗?你知道爬虫的爬取流程吗?
你了解爬虫是什么吗?你知道爬虫的爬取流程吗?你知道怎么处理爬取中出现的问题吗?如果你回答不出来,或许你真的要好好看看这篇文章了! 爬虫简介网络爬虫(Webcrawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内...
代码星球
·
2020-12-24
爬虫
是什么
知道
爬取
流程
如何使用Jsoup爬取网页内容
前言:这是一篇迟到很久的文章了,人真的是越来越懒,前一阵用jsoup实现了一个功能,个人觉得和selenium的webdriver原理类似,所以今天正好有时间,就又来更新分享了。实现场景:爬取博客园https://www.cnblogs.com/longronglang,文章列表中标题、链接、发布时间及阅读量 ...
代码星球
·
2020-12-12
如何
使用
Jsoup
爬取
网页
python爬虫:爬取网站视频
python爬取百思不得姐网站视频:http://www.budejie.com/video/新建一个py文件,代码如下:1234567891011121314151617181920212223242526272829303132333435#!/usr/bin/python# -*- codin...
代码星球
·
2020-11-21
python
爬虫
爬取
网站
视频
如果对方网站反爬取,封IP了怎么办?
放慢抓取熟速度,减小对目标网站造成的压力,但是这样会减少单位时间内的数据抓取量使用代理IP(免费的可能不稳定,收费的可能不划算) ...
代码星球
·
2020-11-01
如果
对方
网站
反爬
IP
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访问网页是阻塞的,无法并发,所以我们需要一个更牛逼的库aiohttp,它的用法与requests相似,可以看成是异步版的re...
代码星球
·
2020-09-25
Python
使用
asyncio+aiohttp
异步
爬取
node.js 爬取图片
/***_ooOoo_*o8888888o*88"."88*(|-_-|)*O=/O*____/`---'\____*.'\||//`.*/\|||:|||//*/_|||||-:-|||||-*||\-///||*|\_|''---/''||*.-\__`-`___/-./*___`..'/--.--`..__*."...
代码星球
·
2020-09-20
node.js
爬取
图片
PHP 爬取图片 保存本地
publicfunctiongetImage($url,$filename=''){if($url==''){returnfalse;}if($filename==''){$ext=pathinfo($url);if($ext['extension']!="jpg"&&$ext['extension']...
代码星球
·
2020-09-20
PHP
爬取
图片
保存
本地
首页
上一页
1
2
3
4
5
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他