爬虫主题的文章列表，还有爬虫的技术要点_第1页

爬虫进阶之Selenium和chromedriver,动态网页（Ajax）数据抓取

Ajax（AsynchronouseJavaScriptAndXML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输...

代码星球 ·2021-02-23

爬虫进阶之多线程爬虫

有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢，而进程则是火车...

代码星球 ·2021-02-23

python爬虫-使用cookie登录

什么是cookie?Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面,这样就达到了我们的目的。U...

代码星球 ·2021-02-23

[01] 网络爬虫的基本原理

既然知道了原理，那么我们试着来把百度的网页内容抓取下来，无非就是：模拟url连接获取响应的输入流把输入流的内容输出到本地publicclassTest{publicstaticvoidmain(String[]args){try{URLurl=newURL("http://www.baidu.com");URLConn...

代码星球 ·2021-02-21

[转] [Java] 知乎下巴第5集：使用HttpClient工具包和宽度爬虫

原文地址:http://blog.csdn.net/pleasecallmewhy/article/details/18010015下载地址：https://code.csdn.net/wxg694175346/zhihudown 说到爬虫，使用Java本身自带的URLConnection可以实现一些基本的抓...

代码星球 ·2021-02-15

Python爬虫实现统计博客园博文数量、阅读量、评论数

如何使用只需要将代码中的headurl替换以下格式，其中你只需要改变以下链接的阴影部分，阴影部分为你的博客园链接。类似：https://www.cnblogs.com/-wenli/default.html?page= 原理使用requests爬取网页，再使用BeautifulSoup...

代码星球 ·2021-02-14

Python爬虫利器二之Beautiful Soup的用法

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫BeautifulSoup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一节就让我们一起来感受一...

代码星球 ·2021-02-12

python第一个爬虫的例子抓取数据到mysql，实测有数据

python3.5先安装库或者扩展1requests第三方扩展库 pip3installrequests2pymysqlpip3installpymysql3lxmlpip3installlxml4 贴个代码#!/usr/bin/envpython#coding=utf-8importrequest...

代码星球 ·2021-02-11

swing版网络爬虫-丑牛迷你采集器2.0

swing版网络爬虫-丑牛迷你采集器2.0http://www.javacoo.com/code/704.jhtml 整合JEECMShttp://bbs.jeecms.com/fabu/31867.jhtml...

代码星球 ·2021-02-11

python爬虫之小说爬取

废话不多说，直接进入正题。今天我要爬取的网站是起点中文网，内容是一部小说。首先是引入库fromurllib.requestimporturlopenfrombs4importBeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2Rf...

代码星球 ·2021-02-09

python爬虫 urllib模块url编码处理

案例：爬取使用搜狗根据指定词条搜索到的页面数据（例如爬取词条为‘周杰伦'的页面数据）importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰伦''''2.发起请求:使用urlopen函数对指定的url发起请求，该函数返回一个响应对象，urlo...

代码星球 ·2021-02-02

用Python写简单的爬虫

准备：1.扒网页，根据URL来获取网页信息importurllib.parseimporturllib.requestresponse=urllib.request.urlopen("https://www.cnblogs.com")print(response.read())urlopen方法urlopen(url,...

代码星球 ·2021-02-01

互联网人必备：推荐4款爬虫抓包神器

受疫情影响，相信大部分人仍然还是处于在家远程办公的状态，起初最简单的远程办公，就是打打电话，发发微信，我们每天都在做。后来有了一系列工具，比如企业微信、各种线上会议工具、在线文档等等，能够把同事之间配合的效率提升起来，突破物理意义上的限制，不用到办公室就能创造价值，在没法线下聚集的时候，让自己的工作不会中断。 ...

代码星球 ·2021-02-01

通过java.net.URLConnection发送HTTP请求(原生、爬虫)

目录1. 运用原生JavaApi发送简单的Get请求、Post请求2. 简单封装3. 简单测试　　如何通过Java发送HTTP请求，通俗点讲，如何通过Java（模拟浏览器）发送HTTP请求。Java有原生的API可用于发送HTTP请求，即java.net.URL、java.net.URLC...

代码星球 ·2021-01-24

使用 HttpClient 和 HtmlParser 实现简易爬虫

这篇文章介绍了HtmlParser开源包和HttpClient开源包的使用，在此基础上实现了一个简易的网络爬虫(Crawler)，来说明如何使用HtmlParser根据需要处理Internet上的网页，以及如何使用HttpClient来简化Get和Post请求操作，构建强大的网络应用程序。本小结简单的介绍一...

代码星球 ·2021-01-23