51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#Python数据分析与挖掘实战
爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影
前面几天介绍的都是博客园的内容,今天我们切换一下,了解一下大家都感兴趣的信息,比如最近有啥电影是万众期待的?猫眼电影是了解这些信息的好地方,在猫眼电影中有5个榜单,其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库,按照之前30天的想看总数量从高到低排列,取前50名。我们先看一下这个表单中包含什么内...
ymnets
·
2020-03-25
电影
爬虫
实战
Python
获取
爬虫实战【3】Python-如何将html转化为pdf(PdfKit)
前面我们对博客园的文章进行了爬取,结果比较令人满意,可以一下子下载某个博主的所有文章了。但是,我们获取的只有文章中的文本内容,并且是没有排版的,看起来也比较费劲。。。咋么办的?一个比较好的方法是将文章的正文内容转化成pdf,就不要考虑排版的事情了,看起来比较美观,也不会丢失一些关键信息。python中将html转化为p...
ymnets
·
2020-03-25
爬虫
实战
Python-
如何
html
爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表
首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。【插入图片,文章标题1】【插入图片,文章标题2】通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2",其href属性就指向这篇博文的地址。如下面代码所示:<aid=&qu...
ymnets
·
2020-03-25
爬虫
实战
Python
博客园
获取
爬虫实战【1】使用python爬取博客园的某一篇文章
博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步,获取某一篇文章。第二步,获取该博主所有文章的url列表。第三步,下载所有文章。第一次实战,我们以博客园为例。Cnblog是典型的静态网页,通过查看博文的源代码,可以看出很少js代码,连css代码也比较简单,很适合爬虫初学者来练习。 博客...
ymnets
·
2020-03-25
爬虫
实战
使用
python
爬取
爬虫入门【8】Python连接MongoDB的用法简介
MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展。包含数据库,集合,文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB,并通过PyMongo操作MongoDB数据库。这里默认MongoD...
ymnets
·
2020-03-25
爬虫
入门
Python
连接
MongoDB
爬虫入门【7】Python-文件的读写和JSON
最重要的open()方法将返回一个file对象,经常使用的两个参数为open(filename,mode)其中,filename为file保存的地址,可以是本地地址,相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None...
ymnets
·
2020-03-25
爬虫
入门
Python-
文件
读写
Python PhatomJS 和Selenium动态加载页面 获取图片内容
如果您觉得感兴趣的话,可以添加我的微信公众号:一步一步学Python![](http://www.51dev.com//FileUpload/news/202003/20200325002543449.jpg)随笔中的代码拷贝自http://www.cnblogs.com/Albert-Lee/p/6275146.ht...
ymnets
·
2020-03-25
Python
PhatomJS
Selenium
动态
加载
python定时脚本判断服务器内存
经常我们会发现服务器跑着跑着内存使用率达到了百分之八九十,或者有时候直接挂掉,在我们还没定位是哪块代码有问题导致内存占用很大的时候,可以先写个定时脚本,当服务器内存使用率达到一定值的时候,就重启一起服务,释放内存。下面这个定时脚本是每隔10s去判断一下机器的内存,假如内存使用率超过10%,就重启一下进程(正常情况下内存...
ymnets
·
2020-03-25
python
定时
脚本
判断
服务器
Python Beautiful Soup学习之HTML标签补全功能
BeautifulSoup是一个非常流行的Python模块。该模块可以解析网页,并提供定位内容的便捷接口。使用下面两个命令安装:pipinstallbeautifulsoup4或者 sudoapt-getinstallPython-bs4如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在...
ymnets
·
2020-03-25
Python
Beautiful
Soup
习之
HTML
python进阶笔记 thread 和 threading模块学习
Python通过两个标准库thread和threading提供对线程的支持。thread提供了低级别的、原始的线程以及一个简单的锁。threading基于Java的线程模型设计。锁(Lock)和条件变量(Condition)在Java中是对象的基本行为(每一个对象都自带了锁和条件变量),而在Python中则是独立的对象...
ymnets
·
2020-03-25
python
进阶
笔记
thread
threading
Python通过一个网页地址获得网页标题Title
importrequestsfrombs4importBeautifulSoupres=requests.get("https://www.51dev.com")res.encoding='utf-8'#soup=BeautifulSoup(res.text,'lxml')print(soup.title.text)&...
开发笔记
·
2020-03-22
网页
Python
通过
一个
地址
Python基础——原生数据类型(字典,列表,元组,字符串)
字典定义了键值对的1对1管理。1、定义字典请看下面的栗子,我们先创建了一个具有两个元素的字典,每对都是key:value的形式。我们能通过key得到value,但是不能通过value得到key。还可以通过get方法得到对应key的value。d={'server':'mpilgrim','database':'mast...
开发笔记
·
2020-03-18
Python
基础
原生
数据
类型
python正则表达式匹配 模式匹配
. Python正则式的基本用法1.1基本规则1.2重复1.2.1最小匹配与精确匹配1.3前向界定与后向界定1.4组的基本知识2. re模块的基本函数2.1使用compile加速2.2match和search2.3finditer2.4字符串的修改与替换3. &nb...
开发笔记
·
2020-03-18
匹配
python
正则
表达式
模式
python3.7成功安装dlib库
不知道为什么python3.7版本安装dlib不能直接用pip,真的超级麻烦。然后看了其他一些博客感觉挺复杂的,boost居然也要设置环境变量,而且问题很多。我大概花了一天的时间才总算弄好,而且也不是很复杂。1.先去下载dlib的安装包,网址在这https://pypi.org/project/dlib/#files,...
开发笔记
·
2020-03-17
python3.7
成功
安装
dlib
如何使用python搭建一个高性能的网站
作为一名程序员,还是必须要会开发网站的,不然别人都会怀疑你是不是程序员了。今天,主要介绍一下如何使用python来搭建一个网站。可能有人会觉得搭建网站不都应该用java么?python的性能那么低。的确,使用java来开发网站的确要比python多的多。但实际上还是有很多大型的网站都是使用python搭建起来的,如国外...
开发笔记
·
2020-03-17
如何
使用
python
搭建
一个
首页
上一页
...
413
414
415
416
417
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他