为您找到搜索结果:5822个
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七)网络爬虫使用Beautifulsoup4抓取内容BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parsetree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。BeautifulSoupDocumentation—BeautifulSoup4.4.0documentationhttp://www.crummy.com/software/BeautifulSoup/bs4/doc/[学习]用python的BeautifulSoup分析html-三夜灯-博客园http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.htmlBeautiful3Soupdocumentation中文文档只有bs3的,最新的只有英文版的http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html...
python3.4学习笔记(十六) windows下面安装easy_install和pip教程
python3.4学习笔记(十六)windows下面安装easy_install和pip教程easy_install和pip都是用来下载安装Python一个公共资源库PyPI的相关资源包的首先安装easy_install下载地址:https://pypi.python.org/pypi/ez_setup解压,安装方法cmd进入到对应目录下,执行命令:pythonez_setup.py------------------------------------C:UsersAdministrator>d:D:>cdD:downloadez_setup-0.9D:downloadez_setup-0.9>pythonez_setup.pyDownloadinghttp://pypi.python.org/packages/source/d/distribute/distribute-0.6.14.tar.gzExtractinginC:UsersADMINI~1AppDataLocalTempmpufdlxztcNowworkinginC:UsersADMINI~1AppDa...
python3.4学习笔记(十五) 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
python3.4学习笔记(十五)字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)pythonprint不换行(在后面加上,end=''),print(string,end='')Pythonsplit()通过指定分隔符对字符串进行切片,如果参数num有指定值,则仅分隔num个子字符串split()方法语法:str.split(str="",num=string.count(str)).参数str--分隔符,默认为空格。num--分割次数。返回值返回分割后的字符串列表。实例以下实例展示了split()函数的使用方法:#!/usr/bin/pythonstr="Line1-abcdefLine2-abcLine4-abcd";print(str.split(''))print(str.split('',1);以上实例输出结果如下:['Line1-abcdef','Line2-abc','Line4-abcd']['Line1-abcdef','Line2-abcLine4-abcd']==============================...
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四)网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/最终输出结果格式如:2015075期开奖号码:6,11,13,19,21,32,蓝球:4直接用python源码写的抓取双色球最新开奖数据的代码,没使用框架,直接用字符串截取的方式写的,经过测试速度还是很快的使用pyspider可以轻松分析出需要的内容,不过需要部署框架对只抓取特定内容的小应用来说也没多大必要一般的抓取网页的使用beautifulsoup就足够了,pyspider真正做爬虫类的应用才需要用到python3.4学习笔记(十七)网络爬虫使用Beautifulsoup4抓取内容-流风,飘然的风-博客园http://www.cnblogs.com/zdz8207/p/python_learn_note_17.html使用BeautifulSoup4对比直接使用字符串查找截取的方式要更加直观和简洁。把代码作为开源项目了,热血狂徒/zyspider-代码托管-开源中国社区http://git.oschina...
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
python3.4学习笔记(十三)网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。用pyspider的demo页面创建了一个爬虫,写一个正则表达式抓取多牛网站上特定的URL,很容易就得到想要的结果了,可以非常方便分析抓取页面里面的内容binux/pyspider·GitHubhttps://github.com/binux/pyspiderhttp://docs.pyspider.org/en/latest/Dashboard-pyspiderhttp://demo.pyspider.org/ztest-Debugger-pyspiderhttp://demo.pyspider.org/debug/ztest那个demo网站还可以直接在线保存自己创建编辑过的代码的看了pyspider的源码web端是用tornado框架做的,使用PhantomJS渲染带JS...
python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL
python3.4学习笔记(十二)python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL实战例子:使用pyspider匹配输出带.html结尾的URL:@config(age=10*24*60*60)defindex_page(self,response):foreachinresponse.doc('a[href^="http"]').items():matchObj=re.match(r'(.*).html',each.attr.href,re.M|re.I)ifmatchObj:self.crawl(each.attr.href,callback=self.detail_page)---------------------------------------正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python自1.5版本起增加了re模块,它提供Perl风格的正则表达式模式。re模块使Python语言拥有全部的正则表达式功能。compile函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一...
python3.4学习笔记(十一) 列表、数组实例
python3.4学习笔记(十一)列表、数组实例#python列表,数组类型要相同,python不需要指定数据类型,可以把各种类型打包进去#python列表可以包含整数,浮点数,字符串,对象#创建列表三种方式:1.member=["zdz","liufeng","hots"],2.number=[1,2,3],#3.混合型mix=[1,'zdz',3.12,[1,2,3]]4.空列表empty=[]#向列表添加使用append追加一个元素到末尾,extend追加另外一个列表到末尾,insert插入到指定位置1#python列表,数组类型要相同,python不需要指定数据类型,可以把各种类型打包进去2#python列表可以包含整数,浮点数,字符串,对象3#创建列表三种方式:1.member=["zdz","liufeng","hots"],2.number=[1,2,3],4#3.混合型mix=[1,'zdz',3.12,[1,2,3]]4.空列表empty=[]5#向列表添加使用append追加一个元素到末尾,extend追加另外一个列表到末尾,insert插入到指定位置6emptyl...
python3.4学习笔记(十) 常用操作符,条件分支和循环实例
python3.4学习笔记(十)常用操作符,条件分支和循环实例1#Pyhon常用操作符2c=d=103d/=8#3.x真正的除法4print(d)#1.255c//=8#用两个斜杠实现2.x默认的地板除法(整数相除只取整数)6print(c)#17a=3**2#3的2次方8print(a)9print(not0)#True,0表示Flase,其他数字为True10print(not2)#Flase11#运算符优先级,幂运算**,正负号+x-x算术操作符*///+-12#比较操作符<<=>>===!=,逻辑运算符notandor13-------------------------------------14输出结果:151.2516117918True19False=====================================#条件分支和循环#条件分支,判断,决定该不该做某事,ifelse(elif)强制tab缩进避免悬挂else#循环,不断地去做某事whileforrange1#条件分支和循环2#条件分支,判断,决定该不该做某事,ifelse(el...
python3.4学习笔记(九) Python GUI桌面应用开发工具选择
python3.4学习笔记(九)PythonGUI桌面应用开发工具选择PythonGUI开发工具选择-WEB开发者http://www.admin10000.com/document/96.html为什么用Python开发桌面应用程序_yu000hong_新浪博客http://blog.sina.com.cn/s/blog_48a45b950100zhwx.html鱼C工作室-免费Python教学视频,论坛 里面有GUI开发的免费视频http://bbs.fishc.com/forum-173-1.html...
python3.4学习笔记(八) Python第三方库安装与使用,包管理工具解惑
python3.4学习笔记(八)Python第三方库安装与使用,包管理工具解惑许多人在安装Python第三方库的时候,经常会为一个问题困扰:到底应该下载什么格式的文件?当我们点开下载页时,一般会看到以下几种格式的文件:msi,egg,whlmsi文件:Windows系统的安装包,在Windows系统下可以直接双击打开,并按提示进行安装egg文件:setuptools使用的文件格式,可以用setuptools进行安装whl文件:wheel本质上是zip文件,它使用.whl作为拓展名,用于Python模块的安装,它的出现是为了替代Eggs,可以用pip的相关命令进行安装Python包管理工具解惑|zrong'sbloghttp://zengrong.net/post/2169.htmpython3.4学习笔记(十六)windows下面安装easy_install和pip教程-流风,飘然的风-博客园http://www.cnblogs.com/zdz8207/p/python_learn_note_16.html=====================================实例:...
python3.4学习笔记(七) 学习网站博客推荐
python3.4学习笔记(七)学习网站博客推荐深入Python3http://sebug.net/paper/books/dive-into-python3/《深入Python3》的内容涵盖了Python3及其与Python2的区别。相对《深入Python》而言,它20%的内容进行了修订,80%的内容是全新的。廖雪峰的官方网站,很多网友都推荐的学习python的名博http://www.liaoxuefeng.com/中文,免费,零起点,完整示例,基于最新的Python3版本。Python-话题精华-知乎http://www.zhihu.com/topic/19552832老王pythonhttp://www.cnpythoner.com/Python|静觅--很多实战例子,不过大部分是基于2.x写的http://cuiqingcai.com/category/technique/pythonWelcometoPython.org官方网站https://www.python.org/Overview—Python3.4.3documentation官方文档https://...
python3.4学习笔记(六) 常用快捷键使用技巧,持续更新
python3.4学习笔记(六)常用快捷键使用技巧,持续更新安装IDLE后鼠标右键点击*.py文件,可以看到EditwithIDLE选择这个可以直接打开编辑器。IDLE默认不能显示行号,使用ALT+G跳到对应行号,在右下角有显示光标所在行、列。ALT+P,上一个历史输入内容,ALT+N下一个历史输入内容。IDLE中按F5可以运行代码。编辑状态时:Ctrl+[、Ctrl+]缩进代码Alt+3Alt+4注释、取消注释代码行Alt+5Alt+6切换缩进方式空格<=>TabAlt+/单词完成,只要文中出现过,就可以帮你自动补齐。多按几次可以循环选择Alt+M打开模块代码,先选中模块,然后按下此快捷键,会帮你打开改模块的py源码供浏览Alt+C打开类浏览器,方便在源码文件中的各个方法体之间切换Alt+FP打开路径浏览器,方便选择导入包进行查看浏览F1打开Python文档,不用设置。值得注意的是Ctrl+Space这个快捷键和Windows的输入法切换热键冲突,不要紧,当你实在需要提示的时候停下来,仍然会有代码提示的。其他常用快捷键就按习惯来好了。在编辑过程中,按F5进入shell调试...
python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍
python3.4学习笔记(五)IDLE显示行号问题,插件安装和其他开发工具介绍IDLE默认不能显示行号,使用ALT+G跳到对应行号,在右下角有显示光标所在行、列。pycharm免费社区版、SublimeText、pyscripter、eclipse+pydev可以显示行数。安装插件可以让IDLE显示行号:1.先下载LineNumbers.py文件:http://ftp.heanet.ie/disk1/disk1/disk1/sourceforge/s/so/sourcetrac/tmp/IDLE/idlexlib/extensions/LineNumbers.py2.将文件放在python安装目录下的idlelib目录下,3.用文本编辑器打开idlelib目录下的config-extensions.def文件。将如下配置参数追加到文件末尾:[LineNumbers]enable=1enable_editor=1enable_shell=0visible=1注意:[LineNumber]这个必须跟文件名一致才行。4.保存此文件,重新打开idle看见行号说明成功,否则失败(下载到不对的文...
python3.4学习笔记(四) 3.x和2.x的区别,持续更新
python3.4学习笔记(四)3.x和2.x的区别在2.x中:printhtml,3.x中必须改成:print(html)importurllib2ImportError:Nomodulenamed'urllib2'在python3.x里面,用urllib.request代替urllib2importthreadImportError:Nomodulenamed'thread'在python3.x里面,用_thread(在前面加一个下划线)代替thread在2.x中exceptException,e:3.x中改为except(Exception):=================================print函数虽然print语法是Python3中一个很小的改动,且应该已经广为人知,但依然值得提一下:Python2中的print语句被Python3中的print()函数取代,这意味着在Python3中必须用括号将需要输出的对象括起来。在Python2中使用额外的括号也是可以的。但反过来在Python3中想以Python2的形式不带括号调用print函数时,会触发Synt...
python3.4学习笔记(三) idle 清屏扩展插件
python3.4学习笔记(三)idle清屏扩展插件pythonidle清屏问题的解决,使用pythonidle都会遇到一个常见而又懊恼的问题——要怎么清屏?在stackoverflow看到这样两种答案:1.在shell中输入importosos.system('cls')这种方法只能在windows系统中cmd模式下的pythonshell才管用(因为cls的命令是针对cmd的),在pythonidle直接返回了一个0的值。2.定义一个cls的函数,每次使用输入cls()即可defcls():print""*100这种方法是伪清屏,只是输入满屏的空白而已,光标仍在最下面一行,根本达不到清屏的目的。在python的邮件列表中有很多这样类似的问题,但是没看到回答的。google后找到一个解决方法:增加一个清屏的扩展ClearWindow就可以了(在http://bugs.python.org/issue6143中可以看到这个扩展的说明)。一、下载clearwindow.py(http://bugs.python.org/file14303/ClearWindow....