爬虫案例的搜索结果_第32页_51dev.com 技术开发者社区

8大成功的网络营销案例互联网营销案例分析

1.海尔微博营销　　提到海尔，我们不难联想到它总是以裤衩两兄弟的动画宣传时代;但是你们有可能不知，在海尔33岁这年发生一件大事!通过互联网最大微博平台上却成为了“新晋网红”。　　故事开头得从一个网友在微博上发文称想要购买一台豆浆机说起。　　微博话题：关于豆浆机，不知道选哪个?　　没想到的是正是这条毫无炒作痕迹的普通微博，却引来了200多个官微在评论区的一片混战，该微博的转发量很快就超过12万，评论超过9万!　　海尔九阳微博评论对战　　此次互动不但让众多企业的曝光度大大提升，可以说这一次典型互联网思维方式的成功网络营销案例。　　有企业认为企业在微博红利期高峰已过，海尔却反其道而为之，不断更新微博，在各大微博红人区抢热门评论，抢回复，与网友互动，看起来和普通吃瓜群众一样，在众多网友感叹的同时也再次在微博上形成了一股热潮：没想到你是这样的海尔!　　海尔的成功在于打破传统，在微博上的去官方化、致力于趣味化、年轻化，不但顺应了时代的潮流，更接地气的同时，也实现了人们对于企业新的观感和美誉度。　　2.优衣库事件营销　　这次网络营销成功案例发生在前几年;当时几乎在网页、微信、...

代码星球·2020-05-05

Python爬虫之定时抢购淘宝商品

importtimefromseleniumimportwebdriverimportdatetimeclassSpider:def__init__(self,url):self.__base_url=urlself.__headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/67.0.3396.62Safari/537.36',}defget_url(self):globaldriverdriver.get(self.__base_url)deflogin(self):globaldriverifdriver.find_element_by_link_text("亲，请登录"):driver.find_element_by_link_text("亲，请登录").click()print("请在30秒内扫描登陆")time.sleep(30)driver.get("https://cart.taobao.com/car...

代码星球·2020-04-29

Python爬虫之设置selenium webdriver等待

ajax技术出现使异步加载方式呈现数据的网站越来越多，当浏览器在加载页面时，页面上的元素可能并不是同时被加载完成，这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException（不可见元素异常）的情况出现，那么就会降低自动化脚本的稳定性，设置元素等待可改善这种问题造成的不稳定。一、强制等待强制等待是利用python语言自带的time库中的sleep()方法：fromseleniumimportwebdriverfromtimeimportsleepdeftest():#打开浏览器driver=webdriver.Firefox()driver.get('http://www.baidu.com')sleep(5)driver.quit()sleep(5)会挂起这个脚本，五秒后再继续执行，但是这种方式会导致这个脚本运行时间过长，不到万不得已尽可能少用，特殊情况下，时间设置最好不超过1秒，一般0.5秒。二、隐式等待隐式等待：在脚本中我们一般看不到等待语句，但是它会在每个页面加载的时候自动等待；隐式等待只需要声明一...

代码星球·2020-04-29

Python爬虫之selenium高级功能

原文地址表单操作元素拖拽页面切换弹窗处理表单里面会有文本框、密码框、下拉框、登陆框等。这些涉及与页面的交互，比如输入、删除、点击等。前提是找到页面中的元素。例如下面有一个表单输入框：<inputtype="text"name="passwd"id="passwd-id"/>获取这个元素的方法：element=driver.find_element_by_id("passwd-id")element=driver.find_element_by_name("passwd")element=driver.find_elements_by_tag_name("input")element=driver.find_element_by_xpath("//input[@id='passwd-id']")注意：使用xpath的时候还需要注意的是，如果有多个元素匹配了xpath，它只会返回第一个匹配的元素。如果没有找到，那么会抛出 NoSuchElementException 的异常。获取元素之和就要进行输入与点击操作了...

代码星球·2020-04-29

Python爬虫之urllib.parse详解

Python爬虫之urllib.parse转载地址Python中的urllib.parse模块提供了很多解析和组建URL的函数。urlparse()函数可以将URL解析成ParseResult对象。对象中包含了六个元素，分别为：协议（scheme）域名（netloc）路径（path）路径参数（params）查询参数（query）片段（fragment） fromurllib.parseimporturlparseurl='https://blog.csdn.net/xc_zhou/article/details/80907101'parsed_result=urlparse(url)print('parsed_result包含了',len(parsed_result),'个元素')print(parsed_result)print('scheme:',parsed_result.scheme)print('netloc:',parsed_result.netloc)print('path:',parsed_result.path)print('params:',parsed_...

代码星球·2020-04-29

Python爬虫之简单爬虫框架实现

目录框架流程调度器url管理器网页下载器网页解析器数据处理器具体演示效果 #导入模块importUrl_Managerimportparser_htmlimporthtml_outputimportdownloadclassSpiderMain(object):def__init__(self):#实例化:url管理器,网页下载器，网页解析器，数据输出self.urls=Url_Manager.UrlManager()self.parser=parser_html.Htmlparser()self.download=download.download()self.outputer=html_output.HtmlOutputer()defcraw(self,root_url):count=1#向列表里面添加新的单个urlself.urls.add_new_url(root_url)#判断待爬取的url列表里面有没有新的urlwhileself.urls.has_new_url():try:#如...

代码星球·2020-04-29

Python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

目录随机User-Agent获取代理ip检测代理ip可用性　　 fake_useragent库，伪装请求头fromfake_useragentimportUserAgentua=UserAgent()#ie浏览器的useragentprint(ua.ie)#opera浏览器print(ua.opera)#chrome浏览器print(ua.chrome)#firefox浏览器print(ua.firefox)#safri浏览器print(ua.safari)#最常用的方式#写爬虫最实用的是可以随意变换headers，一定要有随机性。支持随机生成请求头print(ua.random)print(ua.random)print(ua.random) 在免费的代理网站爬取代理ip，免费代理的采集也很简单，无非就是：访问页面页面—>正则/xpath提取—>保存代理ip网站有代理：https://www.youdaili.net/Daili/guonei/66代理：ht...

代码星球·2020-04-29

python爬虫之下载文件的方式总结以及程序实例

目录第一种方法：urlretrieve方法下载第二种方法：requestdownload第三种方法：视频文件、大型文件下载实战演示程序示例：importosfromurllib.requestimporturlretrieveos.makedirs('./img/',exist_ok=True)#创建目录存放文件image_url="http://www.51dev.com//FileUpload/news/202004/20200429233154521.jpg"urlretrieve(image_url,'./img1/image1.png')#将什么文件存放到什么位置　　补充知识：os.makedirs()方法用于递归创建目录。像mkdir(),但创建的所有intermediate-level文件夹需要包含子目录。语法makedirs()方法语法格式如下：os.makedirs(path,mode=0o777)参数path--需要递归创建的目录。mode--权限模式。返回值该方法没有返回值。　　 &...

代码星球·2020-04-29

Python爬虫之selenium的使用（八）

一、简介二、安装三、使用 Selenium是自动化测试工具。它支持各种浏览器，包括Chrome，Safari，Firefox等主流界面式浏览器，如果你在这些浏览器里面安装一个Selenium的插件，那么便可以方便地实现Web界面的测试。Selenium支持这些浏览器驱动。Selenium支持多种语言开发，比如Python，Java，C，Ruby等等。 1.安装seleniumpip3installselenium2.配置驱动　　（下载驱动，然后将驱动文件路径配置在环境变量）驱动下载地址：https://sites.google.com/a/chromium.org/chromedriver/downloads注意：你下载的驱动要和你浏览器版本能够兼容才能使用。 1.声明浏览器对象fromseleniumimportwebdriverbrowser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.Edge()b...

代码星球·2020-04-29

python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）

1.进入浏览器，搜索今日头条，在搜索栏搜索街拍，然后选择图集这一栏。 2.按F12打开开发者工具，刷新网页，这时网页回弹到综合这一栏，点击图集，在开发者工具中查看XHR这个选项卡。 3.具体分析url，请求参数当我们在请求图集这个页面时，url如下：请求参数如下：我们可以看到这个url的构成：前面：https://www.toutiao.com/search_content/?后面：offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery 程序主体importrequestsfromurllib.parseimporturlencodefromrequests.exceptionsimportRequestExceptionimportjsonimportreimportosimportpymong...

代码星球·2020-04-29

Python爬虫之PyQuery使用（六）

pyquery能够通过选择器精确定位DOM树中的目标并进行操作。pyquery相当于jQuery的python实现，可以用于解析HTML网页等。它的语法与jQuery几乎完全相同，对于使用过jQuery的人来说很熟悉，也很好上手。有4种方法可以进行初始化：可以通过传入字符串、lxml、文件或者url来使用PyQueryfrompyqueryimportPyQueryaspqfromlxmlimportetreed=pq("<html></html>")#传入字符串d=pq(etree.fromstring("<html></html>"))#传入lxmld=pq(url='http://baidu.com/')#传入urld=pq(filename=path_to_html_file)#传入文件　　 html='''<html><body><ulclass="mh-col"><liclass="g-ellipsis"><aclass="g-a-noline"dat...

代码星球·2020-04-29

Python爬虫之Beautiful Soup解析库的使用（五）

Python第三方库，用于从HTML或XML中提取数据官方：http://www.crummv.com/software/BeautifulSoup/安装：pipinstallbeautifulsoup4 soup=BeautifulSoup(html_doc,'html.parser‘,from_encoding='utf-8')第一个参数：html文档字符串第二个参数：html解析器第三个参数：html文档的编码标签选择器操作注意：只会返回一个指定的标签，这也是标签选择器的特性选择元素frombs4importBeautifulSouphtml_doc='''<divclass="container"><ahref="/pc/home?sign=360_79aabe15"class="logo"></a><navid="nnav"data-mod="nnav"><divclass="nnav-wrap"><ulclass="nnav-items"id="nnav_main...

代码星球·2020-04-29

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)

一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值，第一页为0，第二页为10，以此类推。二.<dd>标签的结构（含有电影相关信息）三、源代码importrequestsimportreimportjsonfromrequests.exceptionsimportRequestException#获取页面源代码defget_one_page(url,headers):try:response=requests.get(url,headers=headers)ifresponse.status_code==200:returnresponse.textexceptRequestException:returnNone#解析defparse_one_page(html):#生成正则表达式对象pattern=re.compile('<dd>.*?board-index.*?>(d+)</i>.*?data-src="(.*?)"...

代码星球·2020-04-29

Python爬虫之正则表达式的使用（三）

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none参数介绍：pattern:正则表达式string：匹配的目标字符串flags：匹配模式正则表达式的匹配模式： importrecontent='hello123456World_ThisisaRegexDemo'print(len(content))result=re.match('^hellosd{6}sw{10}.*Demo$$',content)print(result)print(result.group())#返回匹配结果print(result.span())#返回匹配结果的范围结果运行如下：39<_sre.SRE_Matchobject;span=(0,39),match='hello123456World_ThisisaRegexDemo'>hello123456World_ThisisaRegexDemo(0,39)　　使用（.*）匹配更多内容importrecontent='hello12...

代码星球·2020-04-29

爬虫之Resquests模块的使用（二）

Requests模块Requests模块是一个用于网络访问的模块，其实类似的模块有很多，比如urllib，urllib2，httplib，httplib2，他们基本都提供相似的功能。在上一篇我们已经使用urllib模块而Requests会比urllib更加方便，可以节约我们大量的工作，它更加强大，所以更建议使用Requests。各种请求方式requests里提供各种请求方式HTTP定义了与服务器进行交互的不同方式,其中,最基本的方法有四种: GET,POST,PUT,DELETE;一个URL对应着一个网络上的资源,这四种方法就对应着对这个资源的查询,修改,增加,删除四个操作.上面的程序用到的requests.get()来读取指定网页的信息,而不会对信息就行修改,相当于是"只读".requests库提供了HTTP所有基本的请求方式,都是一句话搞定。requests请求方法请求示例r=requests.get(‘https://github.com/timeline.json’)#GET请求r=request...

代码星球·2020-04-29

8大成功的网络营销案例 互联网营销案例分析

Python爬虫之定时抢购淘宝商品

Python爬虫之设置selenium webdriver等待

Python爬虫之selenium高级功能

Python爬虫之urllib.parse详解

Python爬虫之简单爬虫框架实现

Python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

python爬虫之下载文件的方式总结以及程序实例

Python爬虫之selenium的使用（八）

python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）

Python爬虫之PyQuery使用（六）

Python爬虫之Beautiful Soup解析库的使用（五）

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)

Python爬虫之正则表达式的使用（三）

爬虫之Resquests模块的使用（二）

8大成功的网络营销案例互联网营销案例分析