51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#T
爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影
前面几天介绍的都是博客园的内容,今天我们切换一下,了解一下大家都感兴趣的信息,比如最近有啥电影是万众期待的?猫眼电影是了解这些信息的好地方,在猫眼电影中有5个榜单,其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库,按照之前30天的想看总数量从高到低排列,取前50名。我们先看一下这个表单中包含什么内...
ymnets
·
2020-03-25
电影
爬虫
实战
Python
获取
爬虫实战【3】Python-如何将html转化为pdf(PdfKit)
前面我们对博客园的文章进行了爬取,结果比较令人满意,可以一下子下载某个博主的所有文章了。但是,我们获取的只有文章中的文本内容,并且是没有排版的,看起来也比较费劲。。。咋么办的?一个比较好的方法是将文章的正文内容转化成pdf,就不要考虑排版的事情了,看起来比较美观,也不会丢失一些关键信息。python中将html转化为p...
ymnets
·
2020-03-25
爬虫
实战
Python-
如何
html
爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表
首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。【插入图片,文章标题1】【插入图片,文章标题2】通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2",其href属性就指向这篇博文的地址。如下面代码所示:<aid=&qu...
ymnets
·
2020-03-25
爬虫
实战
Python
博客园
获取
爬虫实战【1】使用python爬取博客园的某一篇文章
博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步,获取某一篇文章。第二步,获取该博主所有文章的url列表。第三步,下载所有文章。第一次实战,我们以博客园为例。Cnblog是典型的静态网页,通过查看博文的源代码,可以看出很少js代码,连css代码也比较简单,很适合爬虫初学者来练习。 博客...
ymnets
·
2020-03-25
爬虫
实战
使用
python
爬取
爬虫入门【8】Python连接MongoDB的用法简介
MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展。包含数据库,集合,文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB,并通过PyMongo操作MongoDB数据库。这里默认MongoD...
ymnets
·
2020-03-25
爬虫
入门
Python
连接
MongoDB
爬虫入门【7】Python-文件的读写和JSON
最重要的open()方法将返回一个file对象,经常使用的两个参数为open(filename,mode)其中,filename为file保存的地址,可以是本地地址,相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None...
ymnets
·
2020-03-25
爬虫
入门
Python-
文件
读写
爬虫入门【3】BeautifulSoup4用法简介
首先创建一个我们需要解析的html文档,这里采用官方文档里面的内容:html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><p...
ymnets
·
2020-03-25
爬虫
入门
BeautifulSoup4
用法
简介
爬虫入门【2】Requests库简介
使用Requests发送网络请求很简单#首先要导入requests库importrequests#返回一个Response对象r=requests.get('https://github.com/timeline.json')#由此可以看出来Requests的API十分简单,#post请求r=requests.post...
ymnets
·
2020-03-25
爬虫
入门
Requests
简介
爬虫入门【1】urllib.request库用法简介
如何使用urllib库获取网络资料打开指定的URLurllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url参数,可以是一个string,或者一个Request对象。d...
ymnets
·
2020-03-25
爬虫
入门
urllib.request
用法
简介
HTML使用post方式提交中文内容出现乱码的错误解决方式
今天在做一个例子的时候,使用post方式提交表单,如果有中文的话,在另一个页面显示出来的时候,总是会出现乱码;但是将提交方式改为get的时候,就不会出现这种错误。详细错误见下面图片和代码。HTML代码:1<!DOCTYPEhtml>2<html>3<head>4<m...
ymnets
·
2020-03-25
方式
HTML
使用
post
提交
Python PhatomJS 和Selenium动态加载页面 获取图片内容
如果您觉得感兴趣的话,可以添加我的微信公众号:一步一步学Python![](http://www.51dev.com//FileUpload/news/202003/20200325002543449.jpg)随笔中的代码拷贝自http://www.cnblogs.com/Albert-Lee/p/6275146.ht...
ymnets
·
2020-03-25
Python
PhatomJS
Selenium
动态
加载
C#基础——静态成员,static关键字
当声明一个类成员为静态时,意味着无论创建多少个类的对象,只会有一个该静态成员的副本。关键字static意味着只有一个该成员的实例。静态变量用于定义常量,因为它们的值可以通过直接调用类而不需要创建类的实例来获取。比如,定义类的成员变量为static的:1classStaticVar2{3publicstaticintnu...
ymnets
·
2020-03-25
基础
静态
成员
static
关键字
JSP基础——属性保存范围和request对象
JSP属性保存范围JSP中提供了四种属性保存范围,分别为page,request,session及application。1、page范围,指设置的属性只在当前页面有效。通过pageContext的setAttribute()方法来设置属性,通过pageContext的getAttribute()来取得属性.代码范例:...
ymnets
·
2020-03-25
JSP
基础
属性
保存
范围
Servlet3.0 jsp跳转到Servlet 出现404错误的路径设置方法
最近又遇到了这种问题,百度了好久,发现有人说要在action的路径里面写Servlet文件的绝对路径,比如说,单独打开servlet的地址为http://localhost:8080/TomcatTest/LoginConfServlet,那么就在action里面写http://localhost:8080...
ymnets
·
2020-03-25
Servlet3.0
jsp
转到
Servlet
出现
<jsp:include>和<%@ include %>的区别
使用<%@include%>指令元素只是将页面的内容静态的包含进来,如果被包含的文件中有JSP代码,则会执行该代码,而不管该文件是否为动态文件。 <jsp:include>动作元素动态地包含文件,如果被包含的文件是静态的,则直接包含内容,不会进行处理;而如果被包含的文件是动态地,则先执...
ymnets
·
2020-03-25
区别
首页
上一页
...
4547
4548
4549
4550
4551
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他