为您找到搜索结果:842个
爬虫技术:数据处理josn和pickle模块
一:json模块json模块的作用就是讲json字符串("{"a":1,"b":1}")和python能够识别的字典进行相互转换。importjsonimportpicklea="""{'a'::1,'c':2}"""ret=json.loads(a)print(ret)#结果json.decoder.JSONDecodeError:Expectingpropertynameenclosedindoublequotes:line2column2(char2)a不是标准的json字符串,标准的字符串必须使用双引号进行包裹,这点非常重要。a="""{"a":1,"c":2}"""ret=json.loads(a)print(ret)print(ret["a"])#结果{'a':1,'c':2}1结论:loads:josn字符串---->和python字典之间的转换importjsonimportpicklea={'a':1,'b':2}ret=json.dumps(a)#将pyhton字典转换为josn字符串,这种情况下对于引号的限制没有那么严格print(ret)print(typ...
爬虫技术:爬取淘宝美食数据:崔庆才思路
#TODOselenium已经被检测出来 importrandomimportreimporttimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitfromselenium.webdriver.supportimportexpected_conditionsasECdriver=webdriver.Chrome()defsearch():"""执行后跳转到登录界面--手动登录,且wait容易引起超时错误,因此需要捕捉"""try:driver.get("https://www.taobao.com/")#获取输入框input=WebDriverWait(driver,15).until(EC.presence_of_element_located((By.CSS_SELECTOR,"#q")))#获取搜索按钮,TODO为什么不用id选择器呢?submit=WebDriverWait(dr...
爬虫技术:爬取今日头条数据-崔庆才思路
一.urllib库中将字典转化为url的查询参数二.请求异常的处理,以及内部的判断逻辑 1.返回的json数据为空:原因是requests的请求对象没有加请求头和cookiesimportrequestsfromurllib.parseimporturlencodedefget_page_index():data={"aid":"24","app_name":"web_search","offset":"0","format":"json","keyword":"街拍","autoload":"true","count":"20","en_qc":"1","cur_tab":"1","from":"search_tab","pd":"synthesis","timestamp":"1568883030289"}url="https://www.toutiao.com/api/search/content/?"+urlencode(data)response=requests.get(url)ifresponse.status_code==200:print(response.text...
爬虫技术:cookies池的维护
一:为什么要维护cookie 1.登录才能爬取内容 2.爬取频繁会被封号。 3.需要维护多个账号的cookie,实现大规模抓取二:cookies的要求 1.自动登录更新 2.定期筛选验证 3.提供外部接口三:cookies池的架构#TODO崔庆才基于Flask和redis动态维护cookies池:https://www.bilibili.com/video/av37497888/?p=19 ...
kickstart技术安装操作系统
kickstart是RedHat公司开源的软件,所以对CentOS兼容性最好。原理:我们将手动安装的所有的详细步骤记录到一个文件中,然后kickstart通过读取这个文件就可以实现自动化安装系统。kickstart是一个项目的名称。没有这个软件。使用者水平是高中以上cobbler是对kickstart的所有组件的封装。使用者水平是初中以上。本质上就是网页版本的kickstart。kickstart的原理及组件 环境准备 [root@kickstart~]#cat/etc/redhat-releaseCentOSLinuxrelease7.4.1708(Core)[root@kickstart~]#uname-r3.10.0-693.el7.x86_64[root@kickstart~]#getenforceDisabled[root@kickstart~]#systemctlstatusfirewalld.service●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr...
技术书单(部分)
书籍名称 购买链接《Python编程(第4版套装上下册)》https://item.jd.com/11598704.html《Python3网络爬虫开发实战》https://item.jd.com/12333540.html#crumb-wrapPythonCookbook(第3版)中文版流畅的Pythonhttps://item.jd.com/11681561.htmlhttps://item.jd.com/12186192.htmlPython学习手册(套装上下册)(原书第5版)https://item.jd.com/12452929.htmlNetDevOps入门与实践https://item.jd.com/12355589.html云原生服务网格Istio:原理、实践、架构与源码解析http://product.dangdang.com/27889100.htmlServiceMesh实战:用Istio软负载实现服务网格http://product.dangdang.com/27857036.html分布式对象存储原理架构及Go语言实现http://pro...
流动的推荐系统——兴趣Feed技术架构与实现
我们经常谈论的推荐系统(RecommenderSystem),从形式上看是比较“静态”的推荐,通常位于网页主要信息的周边,比如电商网站的“看了又看”、“买了又买”。这种推荐系统在大多数场景下无法独立撑起一款产品。依据维基百科RecommenderSystem词条的定义:“推荐系统是信息过滤系统的子类,专门用于预测用户对一个项目偏好或者评分进行预测”,则兴趣Feed也是一种推荐系统:它预测用户对社交网络中相邻节点动态内容喜好程度,并根据喜好程度决定这些动态内容的展示顺序。Feed是一种信息流,就是我们看到的“动态”、“新鲜事”。当用户与一些内容源建立了连接(如关注、赞、收藏等)之后,这些内容源产生的新动作,就会源源不断地通过连接流向用户,不同内容源产生的动态被聚合后呈现在用户面前,就是Feed。传播社交网络动态的Feed,通常默认按照动态产生的时间顺序出现在你面前,称为时间线(timeline)。国外的Twitter、Instagram,一开始都...
阿里巴巴年度技术总结:人工智能在搜索的应用和实践
雷锋网 百家号01-0110:55AI科技评论按:本文作者为阿里巴巴搜索事业部总监欧文武,经阿里巴巴授权发布。以深度学习为代表的人工智能在图像、语音和NLP领域带来了突破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如wide&deep实现了深度模型和浅层模型的结合,dssm用于计算语义相关性,deepfm增加了特征组合的能力,deepCF用深度学习实现协同过滤,rnnrecommender采用行为序列预估实现个性化推荐等。工业级的信息检索或个性化系统是一个复杂的系统工程,深度学习的工业级应用需要具备三个条件:强大的系统计算能力,优秀的模型设计能力和合适的应用场景,我们梳理了过去一年多搜索在深度学习方向上的探索,概要的介绍了我们在深度学习系统、深度学习算法和搜索应用落地的进展和思考,希望对大家有所启发。深度学习在搜索的应用概括起来包括4个方面:首先是系统,强大的深度学习训练平台和在线预测系统是深度学习应用的必要条件,目前我们的离线深度学习框架、在线深度学习框架和在线预测框架统一到tf,并实现了日志处理,特征抽取,模型训练和在线服务部署端到端的流程,极大提升了...
中国目前未掌握的核心技术有哪些
近些年,中国在科技领域的进步很快,也让无数中国人深感自豪。然而,大家是否思考过一个问题:中国目前还未掌握的核心技术有哪些?在知乎,各个领域的“大神”给出了一些答案,结果令人震惊。这些答案比较专业,估计会有很多人看不太懂。但简单来说就是一句话:中国还未掌握的核心技术,还有很多,绝对超出你的想象。差距很大,中国仍需加油! 这篇文章很长,虽然有争议,但绝对值得一读。 1、A半导体加工设备 基本被日本,美国霸占,看intel的最佳供应商就知道了。不同的是中国想买有些国外设备,别人不卖。 目前蚀刻设备精度最高的是日立。其实看看英特尔的最佳供应商就知道了,一块CPU要制造出来需要N多东西。INTEL的牛逼,离不开其供应商,有些是独家供应。其他厂商想买都买不成。比如东丽,帝人的炭纤维,超高精密仪器,数控机床,光栅刻画机(这个最牛的也是日立,刻画精度达到10000g/mm),光刻机(ASML)等等,这些是美日严格限制出口的。。分不清啥叫蚀刻机,啥叫光刻机,啥叫光栅刻画机的自己去GOOGLE。 以下是英特尔颁布的SCQI和PQS奖最佳供应商: SCQI奖(英特尔用...
大数据等最核心的关键技术:32个算法
大数据等最核心的关键技术:32个算法转载2016年12月11日22:24:05A*搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此,A*搜索算法是最佳优先搜索的范例。集束搜索(又名定向搜索,BeamSearch)——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过,集束搜索只能在每个深度中发现最前面的m个最符合条件的节点,m是固定数字——集束的宽度。二分查找(BinarySearch)——在线性数组中找特定值的算法,每个步骤去掉一半不符合要求的数据。分支界定算法(BranchandBound)——在多种最优化问题中寻找特定最优化解决方案的算法,特别是针对离散、组合的最优化。Buchberger算法——一种数学算法,可将其视为针对单变量最大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。...
一文学会最常见的10种NLP处理技术
技术小能手 2017-11-2111:08:29 浏览2562 评论0算法 HTTPS 序列 自然语言处理 神经网络摘要: 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。在这篇文章中,你将学习到最常见的10个NLP任务,以及相关资源和代码。为什么要写这篇文章?对于处理NLP问题,我也研究了一段时日。这期间我翻阅了大量资料,通过研究报告,博客和同类NLP问题的赛事内容学习该领域的最新发展成果,并应对NLP处理时遇到的各类状况。因此,我决定将这些资源集中起来,打造一个对NLP常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列...
突破技术管理,IT人中年危机变契机
中生代技术 Yesterday作为一个老技术人,今天不聊技术,就聊点技术人员职业发展的事情:对技术管理岗位的认知,比如技术总监。先贴一张技术人员职业发展路线图,按照管理路线和技术路线区分。在国外管理路线和技术路线的职位会按照ITManager和TechLead去区分。 但在国内其实是没有纯粹的管理路线,管理岗位中一定有具体技术工作的要求。今天我说说对“技术总监”岗位职能要求的理解。 我理解技术总监的权责范畴应该包括:技术性工作管理性工作,分为人员管理(即团队管理)和项目管理 在技术型工作中,我认为更多考验的是一个技术管理者的技术深度和广度,而管理性工作中,更多考验的是一个技术管理者对于复杂人和事的协调能力。 01技术性工作_____ 对于一位优秀的技术人员而言,应该具备如下三种技术能力:关键性技术能力架构设计能力工程管理能力 而一位技术管理者首先应该是一名优秀的技术人员,必须能在这三种技术能力之间游刃有余。 1、关键性技术能力 你也可以把它理解为技术...
深入理解Apache Flink核心技术
2016年02月18日17:04:03 阅读数:1936 标签: Apache-Flink数据流程序员JVM 版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/heyc861221/article/details/80121861作者:李呈祥 作者简介:IntelBigDataTeam软件工程师,主要关注大数据计算框架与SQL引擎的性能优化,ApacheHiveCommitter,ApacheFlinkContributor。 责任编辑:仲浩(zhonghao@csdn.net) 文章来源:《程序员》2月期 版权声明:本文为《程序员》原创文章,未经允许不得转载,订阅2016年《程序员》请点击 http://dingyue.programmer.com.cnApacheFlink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助...
百度技术笔记之2013-1
翻工作笔记本,发现上面有不少笔记可能有share和留底的意义,所以转到博客上来霍泰稳@infoQ:年关技术总结及展望infoQSlogan变化:促进软件开发领域知识与创新技术关注领域变化2012-4:软件测试路在何方infoQ新关注点:推荐算法与机器学习2013:测试的未来:5月,3月:个性化推荐与机器学习年初就把月度专题确定对不对?5月:百度西米露平台Feature百度余凯 深度学习与多媒体专家级、科学家级人物应用:广告推荐、搜索、广告点击预估shallowlearning深度学习从语音图像应用开始KernalLearning特征数据模型转换TransferLearning 特征共享Semi-supervisedlearning,unlabeleddatatofeatureSparseLearning图像理解仍然是难点语言谷歌语义搜索语音即将爆发机器虚拟感知的Pipelinevision组合depnet分层一层一层学习多层最后形成一个图像描述二进制码RBMSAutoencoderSparsecoding一层一层调优训练-----------------------...
百度技术沙龙之2013-2&3
2013年2月2日技术沙龙商业产品开发------谢马林业务逻辑加大设计难度集成难度大降低学习成本统一标准化开发模式面向集成的架构平台业务复杂,设计抽象的技术支撑不够抽象6类数据流业务集成方案用技术手段推动业务的改进业务抽象设计与优化平台IBM秦勇,数据可视化-----------------------------------------------2013-3百度语音技术产品介绍海量语言模型训练材料语音层次信息的快速更新海量的来自各种平台的声音特征-----时间很长一个机器只能服务4个用户百度语音输入声学模型Context-DependentDem-syllablmodeling隐马模型混合高斯模型---聚合DNN:深度神经网络模型取代高斯SGD训练慢传统训练方法:stochasticgradientdecentDL:拥有千万未知参数的数学优化LBFGSBacheModel改进了SGDDNN技术核心:海量数据-->训练技术--》特征抽象与优化--》优化目标和实际问题结合1GPU计算相当于500核并行计算...