爬取主题的文章列表，还有爬取的技术要点_第1页

根据ISBN爬取豆瓣图书信息

frombs4importBeautifulSoupimporttimeimportrandomimportpandasaspdimporturllib.requestimportpymongoimportsysimportreclassDouban():def__init__(self):self.__r_publi...

开发笔记·2022-03-18

[01-01] 示例：用Java爬取新闻

根据爬虫的基本原理，先写一个返回指定url的网页内容的方法：publicclassCrawlerUtil{/***获取主网页的内容**@paramurl网页url*@paramrequestMethod请求方式*@paramreferpost内容*@return网页内容*/publicstaticStringsendH...

代码星球·2021-02-21

python自动爬取指定用户视频

importrandomimporttimeimportrequestsimportredeflog(url):session=requests.session()headers={'User-Agent':'Mozilla/5.0(iPhone;CPUiPhoneOS13_2_3likeMacOSX)AppleWeb...

代码星球·2021-02-21

小白爬取单个微博用户的评论

对“深圳移动”微博用户爬取所有微博及其评论。语言：python2.7使用的库：importrequests微博账号：网上购买若干IP代理：网上租动态IP的代理服务器User-agent：网上搜索若干2.手机微博看不到翻页，是一直往下加载的（一共1671页），但是其json格式的数据仍然以翻页的形式呈现。ht...

代码星球·2021-02-15

python爬虫之小说爬取

废话不多说，直接进入正题。今天我要爬取的网站是起点中文网，内容是一部小说。首先是引入库fromurllib.requestimporturlopenfrombs4importBeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2Rf...

代码星球·2021-02-09

java爬取网页Unicode转UTF-8中文

　　unicode编码简而言之就是将每一个字符用16位2进制数标识。但是通常都用4位的16进制数标识。例如：1)中文字符串"你好"的unicode码为：u60u597d; 2)英文字符串"ab"的unicode码为：u0061u0062；　　其中u是标识unicode码用的，后面的4位16进制数则...

代码星球·2021-01-24

python 爬取妹子

爬取妹子图片2019-06-13环境WIN101903python3.7.3 个人习惯先在IDLE中进行调试importrequestsfrombs4importBeautifulSoupurl='https://www.mzitu.com/'response=requests.get(url=url)pri...

代码星球·2020-12-26

爬取校花网

1.拿到索引页的链接importrequests#pip3installrequests请求库requests相较于urlibra的封装程度更高。importre'''http://www.xiaohuar.com/list-3-0.html第3页http://www.xiaohuar.com/list-3...

代码星球·2020-12-25

爬虫是什么吗？你知道爬虫的爬取流程吗？

你了解爬虫是什么吗？你知道爬虫的爬取流程吗？你知道怎么处理爬取中出现的问题吗？如果你回答不出来，或许你真的要好好看看这篇文章了！爬虫简介网络爬虫（Webcrawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内...

代码星球·2020-12-24

如何使用Jsoup爬取网页内容

前言：这是一篇迟到很久的文章了，人真的是越来越懒，前一阵用jsoup实现了一个功能，个人觉得和selenium的webdriver原理类似，所以今天正好有时间，就又来更新分享了。实现场景：爬取博客园https://www.cnblogs.com/longronglang，文章列表中标题、链接、发布时间及阅读量 ...

代码星球·2020-12-12

python爬虫：爬取网站视频

python爬取百思不得姐网站视频：http://www.budejie.com/video/新建一个py文件，代码如下：1234567891011121314151617181920212223242526272829303132333435#!/usr/bin/python# -*- codin...

代码星球·2020-11-21

如果对方网站反爬取，封IP了怎么办？

放慢抓取熟速度，减小对目标网站造成的压力，但是这样会减少单位时间内的数据抓取量使用代理IP（免费的可能不稳定，收费的可能不划算） ...

代码星球·2020-11-01

Python使用asyncio+aiohttp异步爬取猫眼电影专业版

asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库，可以很好地解决python中高并发的问题，入门学习可以参考官方文档并发访问能极大的提高爬虫的性能，但是requests访问网页是阻塞的，无法并发，所以我们需要一个更牛逼的库aiohttp，它的用法与requests相似，可以看成是异步版的re...

代码星球·2020-09-25

node.js 爬取图片

/***_ooOoo_*o8888888o*88"."88*(|-_-|)*O=/O*____/`---'\____*.'\||//`.*/\|||:|||//*/_|||||-:-|||||-*||\-///||*|\_|''---/''||*.-\__`-`___/-./*___`..'/--.--`..__*."...

代码星球·2020-09-20

PHP 爬取图片保存本地

publicfunctiongetImage($url,$filename=''){if($url==''){returnfalse;}if($filename==''){$ext=pathinfo($url);if($ext['extension']!="jpg"&&$ext['extension']...