为您找到搜索结果:815个
8大成功的网络营销案例 互联网营销案例分析
1.海尔微博营销 提到海尔,我们不难联想到它总是以裤衩两兄弟的动画宣传时代;但是你们有可能不知,在海尔33岁这年发生一件大事!通过互联网最大微博平台上却成为了“新晋网红”。 故事开头得从一个网友在微博上发文称想要购买一台豆浆机说起。 微博话题:关于豆浆机,不知道选哪个? 没想到的是正是这条毫无炒作痕迹的普通微博,却引来了200多个官微在评论区的一片混战,该微博的转发量很快就超过12万,评论超过9万! 海尔九阳微博评论对战 此次互动不但让众多企业的曝光度大大提升,可以说这一次典型互联网思维方式的成功网络营销案例。 有企业认为企业在微博红利期高峰已过,海尔却反其道而为之,不断更新微博,在各大微博红人区抢热门评论,抢回复,与网友互动,看起来和普通吃瓜群众一样,在众多网友感叹的同时也再次在微博上形成了一股热潮:没想到你是这样的海尔! 海尔的成功在于打破传统,在微博上的去官方化、致力于趣味化、年轻化,不但顺应了时代的潮流,更接地气的同时,也实现了人们对于企业新的观感和美誉度。 2.优衣库事件营销 这次网络营销成功案例发生在前几年;当时几乎在网页、微信、...
Python爬虫之定时抢购淘宝商品
importtimefromseleniumimportwebdriverimportdatetimeclassSpider:def__init__(self,url):self.__base_url=urlself.__headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/67.0.3396.62Safari/537.36',}defget_url(self):globaldriverdriver.get(self.__base_url)deflogin(self):globaldriverifdriver.find_element_by_link_text("亲,请登录"):driver.find_element_by_link_text("亲,请登录").click()print("请在30秒内扫描登陆")time.sleep(30)driver.get("https://cart.taobao.com/car...
Python爬虫之设置selenium webdriver等待
ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException(不可见元素异常)的情况出现,那么就会降低自动化脚本的稳定性,设置元素等待可改善这种问题造成的不稳定。一、强制等待 强制等待是利用python语言自带的time库中的sleep()方法:fromseleniumimportwebdriverfromtimeimportsleepdeftest():#打开浏览器driver=webdriver.Firefox()driver.get('http://www.baidu.com')sleep(5)driver.quit()sleep(5)会挂起这个脚本,五秒后再继续执行,但是这种方式会导致这个脚本运行时间过长,不到万不得已尽可能少用,特殊情况下,时间设置最好不超过1秒,一般0.5秒。二、隐式等待隐式等待:在脚本中我们一般看不到等待语句,但是它会在每个页面加载的时候自动等待;隐式等待只需要声明一...
Python爬虫之selenium高级功能
原文地址表单操作元素拖拽页面切换弹窗处理 表单里面会有文本框、密码框、下拉框、登陆框等。这些涉及与页面的交互,比如输入、删除、点击等。前提是找到页面中的元素。例如下面有一个表单输入框:<inputtype="text"name="passwd"id="passwd-id"/>获取这个元素的方法:element=driver.find_element_by_id("passwd-id")element=driver.find_element_by_name("passwd")element=driver.find_elements_by_tag_name("input")element=driver.find_element_by_xpath("//input[@id='passwd-id']")注意:使用xpath的时候还需要注意的是,如果有多个元素匹配了xpath,它只会返回第一个匹配的元素。如果没有找到,那么会抛出 NoSuchElementException 的异常。 获取元素之和就要进行输入与点击操作了...
Python爬虫之urllib.parse详解
Python爬虫之urllib.parse转载地址Python中的urllib.parse模块提供了很多解析和组建URL的函数。urlparse()函数可以将URL解析成ParseResult对象。对象中包含了六个元素,分别为:协议(scheme)域名(netloc)路径(path)路径参数(params)查询参数(query)片段(fragment) fromurllib.parseimporturlparseurl='https://blog.csdn.net/xc_zhou/article/details/80907101'parsed_result=urlparse(url)print('parsed_result包含了',len(parsed_result),'个元素')print(parsed_result)print('scheme:',parsed_result.scheme)print('netloc:',parsed_result.netloc)print('path:',parsed_result.path)print('params:',parsed_...
Python爬虫之简单爬虫框架实现
目录框架流程调度器url管理器网页下载器网页解析器数据处理器具体演示效果 #导入模块importUrl_Managerimportparser_htmlimporthtml_outputimportdownloadclassSpiderMain(object):def__init__(self):#实例化:url管理器,网页下载器,网页解析器,数据输出self.urls=Url_Manager.UrlManager()self.parser=parser_html.Htmlparser()self.download=download.download()self.outputer=html_output.HtmlOutputer()defcraw(self,root_url):count=1#向列表里面添加新的单个urlself.urls.add_new_url(root_url)#判断待爬取的url列表里面有没有新的urlwhileself.urls.has_new_url():try:#如...
Python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性)
目录随机User-Agent获取代理ip检测代理ip可用性 fake_useragent库,伪装请求头fromfake_useragentimportUserAgentua=UserAgent()#ie浏览器的useragentprint(ua.ie)#opera浏览器print(ua.opera)#chrome浏览器print(ua.chrome)#firefox浏览器print(ua.firefox)#safri浏览器print(ua.safari)#最常用的方式#写爬虫最实用的是可以随意变换headers,一定要有随机性。支持随机生成请求头print(ua.random)print(ua.random)print(ua.random) 在免费的代理网站爬取代理ip,免费代理的采集也很简单,无非就是:访问页面页面—>正则/xpath提取—>保存代理ip网站有代理:https://www.youdaili.net/Daili/guonei/66代理:ht...
python爬虫之下载文件的方式总结以及程序实例
目录第一种方法:urlretrieve方法下载第二种方法:requestdownload第三种方法:视频文件、大型文件下载实战演示 程序示例:importosfromurllib.requestimporturlretrieveos.makedirs('./img/',exist_ok=True)#创建目录存放文件image_url="http://www.51dev.com//FileUpload/news/202004/20200429233154521.jpg"urlretrieve(image_url,'./img1/image1.png')#将什么文件存放到什么位置 补充知识:os.makedirs()方法用于递归创建目录。像mkdir(),但创建的所有intermediate-level文件夹需要包含子目录。语法makedirs()方法语法格式如下:os.makedirs(path,mode=0o777)参数path--需要递归创建的目录。mode--权限模式。返回值该方法没有返回值。 &...
Python爬虫之selenium的使用(八)
一、简介二、安装三、使用 Selenium是自动化测试工具。它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面式浏览器,如果你在这些浏览器里面安装一个Selenium的插件,那么便可以方便地实现Web界面的测试。Selenium支持这些浏览器驱动。Selenium支持多种语言开发,比如Python,Java,C,Ruby等等。 1.安装seleniumpip3installselenium2.配置驱动 (下载驱动,然后将驱动文件路径配置在环境变量)驱动下载地址:https://sites.google.com/a/chromium.org/chromedriver/downloads注意:你下载的驱动要和你浏览器版本能够兼容才能使用。 1.声明浏览器对象fromseleniumimportwebdriverbrowser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.Edge()b...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图(七)
1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏。 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合这一栏,点击图集,在开发者工具中查看XHR这个选项卡。 3.具体分析url,请求参数当我们在请求图集这个页面时,url如下: 请求参数如下: 我们可以看到这个url的构成:前面:https://www.toutiao.com/search_content/?后面:offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery 程序主体importrequestsfromurllib.parseimporturlencodefromrequests.exceptionsimportRequestExceptionimportjsonimportreimportosimportpymong...
Python爬虫之PyQuery使用(六)
pyquery能够通过选择器精确定位DOM树中的目标并进行操作。pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。 有4种方法可以进行初始化:可以通过传入字符串、lxml、文件或者url来使用PyQueryfrompyqueryimportPyQueryaspqfromlxmlimportetreed=pq("<html></html>")#传入字符串d=pq(etree.fromstring("<html></html>"))#传入lxmld=pq(url='http://baidu.com/')#传入urld=pq(filename=path_to_html_file)#传入文件 html='''<html><body><ulclass="mh-col"><liclass="g-ellipsis"><aclass="g-a-noline"dat...
Python爬虫之Beautiful Soup解析库的使用(五)
Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/software/BeautifulSoup/安装:pipinstallbeautifulsoup4 soup=BeautifulSoup(html_doc,'html.parser‘,from_encoding='utf-8')第一个参数:html文档字符串第二个参数:html解析器第三个参数:html文档的编码 标签选择器操作注意:只会返回一个指定的标签,这也是标签选择器的特性选择元素frombs4importBeautifulSouphtml_doc='''<divclass="container"><ahref="/pc/home?sign=360_79aabe15"class="logo"></a><navid="nnav"data-mod="nnav"><divclass="nnav-wrap"><ulclass="nnav-items"id="nnav_main...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推。 二.<dd>标签的结构(含有电影相关信息) 三、源代码importrequestsimportreimportjsonfromrequests.exceptionsimportRequestException#获取页面源代码defget_one_page(url,headers):try:response=requests.get(url,headers=headers)ifresponse.status_code==200:returnresponse.textexceptRequestException:returnNone#解析defparse_one_page(html):#生成正则表达式对象pattern=re.compile('<dd>.*?board-index.*?>(d+)</i>.*?data-src="(.*?)"...
Python爬虫之正则表达式的使用(三)
re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none参数介绍:pattern:正则表达式string:匹配的目标字符串flags:匹配模式 正则表达式的匹配模式: importrecontent='hello123456World_ThisisaRegexDemo'print(len(content))result=re.match('^hellosd{6}sw{10}.*Demo$$',content)print(result)print(result.group())#返回匹配结果print(result.span())#返回匹配结果的范围 结果运行如下:39<_sre.SRE_Matchobject;span=(0,39),match='hello123456World_ThisisaRegexDemo'>hello123456World_ThisisaRegexDemo(0,39) 使用(.*)匹配更多内容importrecontent='hello12...
爬虫之Resquests模块的使用(二)
Requests模块Requests模块是一个用于网络访问的模块,其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能。在上一篇我们已经使用urllib模块而Requests会比urllib更加方便,可以节约我们大量的工作,它更加强大,所以更建议使用Requests。 各种请求方式requests里提供各种请求方式HTTP定义了与服务器进行交互的不同方式,其中,最基本的方法有四种: GET,POST,PUT,DELETE;一个URL对应着一个网络上的资源,这四种方法就对应着对这个资源的查询,修改,增加,删除四个操作.上面的程序用到的requests.get()来读取指定网页的信息,而不会对信息就行修改,相当于是"只读".requests库提供了HTTP所有基本的请求方式,都是一句话搞定。requests请求方法 请求示例r=requests.get(‘https://github.com/timeline.json’)#GET请求r=request...