#Python

【Python3爬虫】最新的12306爬虫

  我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能。  在使用Selenium做模拟登录12306网站的时候,需要将登录成功后的Cookie保存下来,这个Cookie在后面是必需的。然后就是在12306网站上查票订票,同时使用F...
代码星球 ·2020-03-31

【Python3爬虫】你会怎么评价复仇者联盟4?

最近复仇者联盟4正在热映中,很多人都去电影院观看了电影,那么对于这部电影,看过的人都是怎么评价的呢?这时候爬虫就可以派上用场了! 首先打开豆瓣电影,然后进入复仇者联盟4的详情页面:https://movie.douban.com/subject/26100958/,下拉页面就可以找到这部电影的短评了:虽然它显...

【Python3爬虫】最新的模拟登录新浪微博教程

首先呢,由于之前重装系统,又要重新配置环境,然后还有一些别的事,导致我一直没有写爬虫了,不过现在又可以继续写了。然后我这次说的模拟登录新浪微博呢,不是使用Selenium模拟浏览器操作,毕竟Selenium的效率是真的有些低,所以我选择用Python发送请求实现模拟登录,整个过程还算是有点小曲折吧。 Wind...

Python的垃圾回收机制(引用计数+标记清除+分代回收)

我们都知道Python一种面向对象的脚本语言,对象是Python中非常重要的一个概念。在Python中数字是对象,字符串是对象,任何事物都是对象,而它们的核心就是一个结构体--PyObject。typedefstruct_object{  intob_refcnt;  struct_typeobject*ob_type...

Python中的那些“坑”

这里要看三组代码:#第一组:>>>a=256>>>b=256>>>aisb#第二组:>>>a=257>>>b=257>>>aisb#第三组:>>>a=257;b=257>>>a...
代码星球 ·2020-03-31

【Python3爬虫】用Python中的队列来写爬虫

当你看着你的博客的阅读量慢慢增加的时候,内心不禁有了些小激动,但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫,最终获取你的博客的总阅读量。 队列是常用数据结构之一,在Python3中要用queue这个模块来实现。queue这个模块实现了三种队...

【Python3爬虫】常见反爬虫措施及解决办法(三)

 上一篇博客的末尾说到全网代理IP的端口号是经过加密混淆的,而这一篇博客就将告诉你如何破解!如果觉得有用的话,不妨点个推荐哦~ 首先进入全网代理IP,打开开发者工具,点击查看端口号,看起来貌似没有什么问题:如果你已经爬取过这个网站的代理,你就会知道事情并非这么简单。如果没爬过呢?也很简单,点击鼠标右...

【Python3爬虫】常见反爬虫措施及解决办法(二)

这一篇博客,还是接着说那些常见的反爬虫措施以及我们的解决办法。同样的,如果对你有帮助的话,麻烦点一下推荐啦。 这次我遇到的防盗链,除了前面说的Referer防盗链,还有Cookie防盗链和时间戳防盗链。Cookie防盗链常见于论坛、社区。当访客请求一个资源的时候,他会检查这个访客的Cookie,如果不是他自己...

【Python3爬虫】常见反爬虫措施及解决办法(一)

这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法。如果能对你有什么帮助的话,麻烦点一下推荐啦。 UserAgent中文名为用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本等信息。对于一些网站来说,它会检查我们发送的请求中所携带的User...

python常用模块

什么是模块?  一个模块就是一个包含了python定义和声明的文件。模块的本质就是一段在其他文件中的代码。  正则表达式不仅在python中,在整个编程中都占有举足轻重的作用。不管你以后做不做开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来要在爬虫领域发展,更要学好这方面的知识。  re模块本质上和正则...
代码星球 ·2020-03-30

python基础之面向对象

  面向过程的程序设计的核心是过程,即解决问题的步骤。   优点是:极大的降低了写程序的复杂度,只需要顺着要执行的步骤,堆叠代码即可。  缺点是:一套流水线或者流程就是用来解决一个问题,代码牵一发而动全身。  应用场景:一旦完成基本很少改变的场景,著名的例子有Linux內核,git,以及ApacheHTTPServer...
代码星球 ·2020-03-30

pipreqs------查找python项目依赖并生成requirements.txt

  项目开发的时候,总是要搭建和部署环境,这时,就需要一个python第三方包的list,一般叫做requirements.txt。如果项目使用virtualenv环境,直接使用pipfreeze即可,但是如果项目的依赖没有维护,就会很麻烦,这时我们就需要一个叫pipreqs的工具,可以帮助我们自动生成requirem...

python基础之函数

  函数能提高应用的模块性和代码的重复利用率,可以避免代码冗余和可读性差。  函数是以功能为导向,函数内部尽量不要有print。定义:def关键词开头,空格之后接函数名称和圆括号(),最后还有一个":"。   def是固定的,不能变,他就是定义函数的关键字。   空格为了将def关键字和函数名分开,必须空(四声),当然...
代码星球 ·2020-03-30

python基础之文件操作

文件句柄=open("文件路径","编码方式","打开方式")比如:f=open("D:常用软件爵士.txt",encoding="utf-8",mode="r")content=f.read()print(content)f.close()#f是变量,表示文件的句柄。f,f_obj,obj,file_hl,file_...
代码星球 ·2020-03-30

python基础之数据类型

  格式化(format)输出中,%s代表字符串占位符,%d代表数字占位符。(python2版本中%f代表小数占位符,%d代表整数占位符。python3版本中所有数字都用%d代表占位符。)  例如:输出用户的姓名、年龄、成绩#第一种写法name=input("请输入姓名:")age=input("请输入年龄:")sco...
代码星球 ·2020-03-30
首页上一页...350351352353354...下一页尾页