爬虫数据解析的搜索结果_第16页_51dev.com 技术开发者社区

Serverless 解惑——函数计算如何访问 MySQL 数据库

函数计算（FunctionCompute）：函数计算是事件驱动的全托管计算服务。使用函数计算，您无需采购与管理服务器等基础设施，只需编写并上传代码。函数计算为您准备好计算资源，弹性地可靠地运行任务，并提供日志查询、性能监控和报警等功能。借助函数计算，您可以快速构建任何类型的应用和服务，并且只需为任务实际消耗的资源付费。访问MySQL数据库是指在函数计算中通过编写代码调用数据库驱动库通过TCP协议实现对数据库进行的插入、查询等操作。通常函数计算中运行的不同函数实例之间是不共享状态的，对于结构化的数据可以通过数据库的形式进行持久化以实现状态共享。由于用户函数运行在函数计算的VPC中，而用户的数据库运行在用户所属的VPC中，所以在函数计算平台访问数据库会涉及到跨VPC访问的场景，下面我们先来介绍一下其工作机制。运行函数时，访问IP是不固定的，因此您无法通过设置白名单的方式访问MySQL。基于最小权限原则，不建议在生产环境中将所有IP(0.0.0.0/0)设置到数据库白名单中。函数计算已经支持专有网络VPC功能，您可以为函数所在的服务开启VPC访问的功能，安全地访问VPC中的资源。...

代码星球·2021-02-24

跟我学-域名解析故障排查技巧

天苍苍，野茫茫，网站一瘫，唯有泪两行！！客户跳，老板叫，解析故障，心惊又肉跳！！对企业网站来说，很怕出现网站打不开的情况，一旦发生，准会发现公司技术部呈现一片哀嚎景象。为了让运维的难兄难弟们做个精致的小白领，小编特别为你们总结了一套《域名解析故障排查技巧实操全网最全手册》，并分为“初阶版”“进阶版”，跟我学完保您在排查解析故障方面，脑回路神清晰，分分钟就能定位问题。为了助您减少客户不可用时间，并赢得老板信任，今天就来听听小编跟大家唠唠域名解析那点事儿。因为DNS是互联网流量的入口，所以企业网站一旦发现不可用，运维人员都需要第一时间优先排除是否为域名解析故障导致。其次我们需要知道域名解析故障与网站不能访问是两个概念，因为网站的访问与域名解析、网站服务器、网站备案、网站程序、网路环境等诸多因素都有关联，而本文则重点描述域名解析故障排查的方法和思路。多数用户反映的域名解析故障，其实并不一定是真的域名解析出了问题，小编在这里为大家总结了最常见的四种原因，可帮助大家快速定位原因：第一、因为域名过期、被锁定都会导致域名无法正常访问。 ①首先我们要知道为什么域名异常会直接导致域名解析异常呢...

代码星球·2021-02-24

大型企业数据库服务首选，AliSQL这几大企业级功能你了解几个？

AliSQL是阿里云深度定制的独立MySQL分支，除了社区版的所有功能外，AliSQL提供了类似于MySQL企业版的诸多功能，如企业级备份恢复、线程池、并行查询等，并且AliSQL还提供兼容Oracle的能力，如sequence引擎等。RDSMySQL使用AliSQL内核，为用户提供了MySQL所有的功能，同时提供了企业级的安全、备份、恢复、监控、性能优化、只读实例等高级特性。1月9日，依托AliSQL内核的专属主机组RDSMySQL服务即将重磅发布！时间：1月9日15:00—17:00主题：RDS专属主机组和ECS专有宿主机联合发布会详情：https://promotion.aliyun.com/ntms/act/mysqlzhuanshuzhuji.html预约直播！：https://yq.aliyun.com/live/1858（需登陆阿里云账号哦！）MySQL代表了开源数据库的快速发展，从2004年前后的Wiki、WordPress等轻量级Web2.0应用起步，到2010年阿里巴巴在电商及支付场景大规模使用MySQL数据库，再到2012年开始阿里云RDSforMySQL为成千上...

代码星球·2021-02-24

Fuxi2.0—飞天大数据平台调度系统全面升级，首次亮相2019双十一

伏羲（Fuxi）是十年前创立飞天平台时的三大服务之一（分布式存储Pangu，分布式计算ODPS，分布式调度Fuxi），当时的设计初衷是为了解决大规模分布式资源的调度问题（本质上是多目标的最优匹配问题）。随着阿里经济体和阿里云业务需求（尤其是双十一）的不断丰富，伏羲的内涵也不断扩大，从单一的资源调度器（对标开源系统的YARN）扩展成大数据的核心调度服务，覆盖数据调度（DataPlacement）、资源调度（ResouceManagement）、计算调度（ApplicationManager）、和本地微（自治）调度等多个领域，并在每一个细分领域致力于打造超越业界主流的差异化能力。过去十年来，伏羲在技术能力上每年都有新的进展和突破，2013年5K，2015年Sortbenchmark世界冠军，2017年超大规模离在/在离线混部能力，2019年的Yugong发布并且论文被VLDB2019接受等。随着Fuxi2.0首次亮相2019双11，今年飞天大数据平台在混部侧支持和基线保障2个方面均顺利完成了目标。其中，混部支持了双十一60%在线交易洪峰的流量，超大规模混部调度符合预期。在基线保障方面，单日...

代码星球·2021-02-24

嗖的一下！只要一条命令，K8s监控数据一键写入时序数据库

/这里的“快速”有多快呢？一条命令就能搞定！本文就介绍如何使用helm一键完成k8s监控数据到阿里云InfluxDB®的存储链路。对于helm的安装和使用，网上有很多资料，这里不赘述。有一点需要注意，虽然近期helm3已经发布，但短期内不是所有的helmchart都兼容helm3，比如社区的这个issue。本文依然使用helm2来安装。这里假设用户已经在阿里云购买了InfluxDB®实例，并且创建了账号以及数据库，具体流程请参考官方文档。假设使用的数据库为k8s,用户名是user1，密码为abcd1234。InfluxDB®的访问地址可以在阿里云控制台看到，如果kubernetes集群同InfluxDB®在同一个阿里云VPC，可以使用VPC地址，否则需要使用公网地址。这里假设访问地址为 https://ts-yourisntanceid.influxdata.rds.aliyuncs.com:3242配置好了helm，要做的就是运行下面这条命令：然后可以看到数据写入到influxdb数据库中了。这可能是最短的使用教程了。因为k8s的监控指标以prometheus格式暴露，这个...

代码星球·2021-02-24

在 Flink 算子中使用多线程如何保证不丢数据？

笔者线上有一个Flink任务消费Kafka数据，将数据转换后，在Flink的Sink算子内部调用第三方api将数据上报到第三方的数据分析平台。这里使用批量同步api，即：每50条数据请求一次第三方接口，可以通过批量api来提高请求效率。由于调用的外网接口，所以每次调用api比较耗时。假如批次大小为50，且请求接口的平均响应时间为50ms，使用同步api，因此第一次请求响应以后才会发起第二次请求。请求示意图如下所示：平均下来，每50ms向第三方服务器发送50条数据，也就是每个并行度1秒钟处理1000条数据。假设当前业务数据量为每秒10万条数据，那么FlinkSink算子的并行度需要设置为100才能正常处理线上数据。从Flink资源分配来讲，100个并行度需要申请100颗CPU，因此当前Flink任务需要占用集群中100颗CPU以及不少的内存资源。请问此时FlinkSink算子的CPU或者内存压力大吗？上述请求示意图可以看出Flink任务发出请求到响应这50ms期间，FlinkSink算子只是在wait，并没有实质性的工作。因此，CPU使用率肯定很低，当前任务的瓶颈明显在网络IO。最后结论...

代码星球·2021-02-24

日处理数据量超10亿：友信金服基于Flink构建实时用户画像系统的实践

/导读：当今生活节奏日益加快，企业面对不断增加的海量信息，其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化，企业App中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验，甚至引发了用户流失。在此背景下，友信金服公司推行全域的数据体系战略，通过打通和整合集团各个业务线数据，利用大数据、人工智能等技术构建统一的数据资产，如ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立，旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超10亿，接入上百种合规数据源。传统基于Hadoop生态的离线数据存储计算方案已在业界大规模应用，但受制于离线计算的高时延性，越来越多的数据应用场景已从离线转为实时。这里引用一张表格对目前主流的实时计算框架做个对比。ApacheStorm的容错机制需要对每条数据进行应答（ACK），因此其吞吐量备受影响，在数据大吞吐量的场景下会有问题，因此不适用此项目的需求。ApacheSpark总体生态更为完善，且在机器学习的集成和应用性暂时领先，但Spark底层还是采用微批（MicroBatching）处理的形式。Apache...

代码星球·2021-02-24

Struct复杂数据类型的UDF编写、GenericUDF编写

一、背景介绍：MaxCompute2.0版本升级后，JavaUDF支持的数据类型从原来的BIGINT、STRING、DOUBLE、BOOLEAN扩展了更多基本的数据类型，同时还扩展支持了ARRAY、MAP、STRUCT等复杂类型，以及Writable参数。JavaUDF使用复杂数据类型的方法，STRUCT对应com.aliyun.odps.data.Struct。com.aliyun.odps.data.Struct从反射看不出FieldName和FieldType，所以需要用@Resolve注解来辅助。即如果需要在UDF中使用STRUCT，要求在UDFClass上也标注上@Resolve注解。但是当我们Struct类型中的field有很多字段的时候，这个时候需要我们去手动的添加@Resolve注解就不是那么的友好。针对这一个问题，我们可以使用Hive中的GenericUDF去实现。MaxCompute2.0支持Hive风格的UDF，部分HiveUDF、UDTF可以直接在MaxCompute上使用。二、复杂数据类型UDF示例示例定义了一个有三个复杂数据类型的UDF，其中第一个用ARRA...

代码星球·2021-02-24

实战课堂 | 让大数据分析更简单，4步教你玩转MongoDB BI Connector

MongoDB使用BIConnector支持BI组件直接使用SQL或ODBC数据源方式直接访问MongoDB,在早期MongoDB直接使用PostgresqlFDW实现SQL到MQL的转换,后来实现更加轻量级的mongosqld支持BI工具的连接。参考 InstallBIConnectorhttps://docs.mongodb.com/bi-connector/master/installation/mongosqld接受SQL查询，并将请求发到MongoDBServer，是BIConnector的核心mongodrdl工具生成数据库schema信息，用于服务BISQL查询mongotranslate工具将SQL查询转换为MongoDBAggregationPipeline参考LauchBIConnectorhttps://docs.mongodb.com/bi-connector/current/launch/--addr指定mongosqld监听的地址--mongo-uri指定连接的MongoDBServer地址默认情况下，mongosqld自动会分析目标MongoDB...

代码星球·2021-02-24

万字干货 | 每秒7亿次请求，阿里新一代数据库如何支撑？

Lindorm，就是云操作系统飞天中面向大数据存储处理的重要组成部分。Lindorm是基于HBase研发的、面向大数据领域的分布式NoSQL数据库，集大规模、高吞吐、快速灵活、实时混合能力于一身，面向海量数据场景提供世界领先的高性能、可跨域、多一致、多模型的混合存储处理能力。目前，Lindorm已经全面服务于阿里经济体中的大数据结构化、半结构化存储场景。注：Lindorm是阿里内部HBase分支的别称，在阿里云上对外售卖的版本叫做HBase增强版，之后文中出现的HBase增强版和Lindorm都指同一个产品。2019年以来，Lindorm已经服务了包括淘宝、天猫、蚂蚁、菜鸟、妈妈、优酷、高德、大文娱等数十个BU，在今年的双十一中，Lindorm峰值请求达到了7.5亿次每秒，天吞吐22.9万亿次，平均响应时间低于3ms，整体存储的数据量达到了数百PB。这些数字的背后，凝聚了HBase&Lindorm团队多年以来的汗水和心血。Lindorm脱胎于HBase，是团队多年以来承载数百PB数据，亿级请求量，上千个业务后，在面对规模成本压力，以及HBase自身缺陷下，全面重构和引擎升级的全...

代码星球·2021-02-24

可闭环、可沉淀、可持续的企业级数据赋能体系

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下两个方面：一、构建可闭环、可沉淀、可持续的企业级数据赋能体系的背景二、开发者数据银行1.数据“四化”如何让属于企业自己的不同触点的数据快速形成一个闭环，沉淀串联这些零散的数据能够快速应用去赋能业务？这涉及到四个关键词，一是业务数据化，企业所有触点是否为真，是否被打通。第二是数据资产化，能否可以像管理资产一样很好地管理数据。第三是资产应用化，企业的资产能否有效应用？如何借助数据资产赋能业务，最后是应用价值化。所有的应用最终一定是为增长、为获客而服务，必须要有价值。在这背后最重要的是场景必须可闭环，数据必须可沉淀，最终数据中台、数据能源才是可持续的。2.构建可闭环、可沉淀的数据赋能体系的意义与价值下图展示了一套可闭环、可沉淀、可持续的企业级数据赋能体系是如何构建的。下图友盟+会推出一个面向企业的数据银行。数据银行和业务是一种什么样的协作关系？开发者数据银行会基于云基础设施，如MaxComput等，不断帮助企业采集各种场景、触点的数据，做相应的数据治理、提纯、模型加工、形成各种应用服务，基于UMID打通能力，多账号归一，多端归一，支...

代码星球·2021-02-24

Flink SQL 如何实现数据流的 Join？

无论在OLAP还是OLTP领域，Join都是业务常会涉及到且优化规则比较复杂的SQL语句。对于离线计算而言，经过数据库领域多年的积累，Join语义以及实现已经十分成熟，然而对于近年来刚兴起的StreamingSQL来说Join却处于刚起步的状态。其中最为关键的问题在于Join的实现依赖于缓存整个数据集，而StreamingSQLJoin的对象却是无限的数据流，内存压力和计算效率在长期运行来说都是不可避免的问题。下文将结合SQL的发展解析FlinkSQL是如何解决这些问题并实现两个数据流的Join。传统的离线BatchSQL（面向有界数据集的SQL）有三种基础的实现方式，分别是Nested-loopJoin、Sort-MergeJoin和HashJoin。Nested-loopJoin最为简单直接，将两个数据集加载到内存，并用内嵌遍历的方式来逐个比较两个数据集内的元素是否符合Join条件。Nested-loopJoin虽然时间效率以及空间效率都是最低的，但胜在比较灵活适用范围广，因此其变体BNL常被传统数据库用作为Join的默认基础选项。Sort-MergeJoin顾名思义，分为两个So...

代码星球·2021-02-24

阿里风控大脑关于大数据应用的探索与实践

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下三个方面：一、阿里风控大脑整体介绍二、近线引擎三、离线引擎1.阿里风控大脑是什么?阿里的风控主要分为两大块。一块是金融领域，主要业务是支付宝，另一块是非金融领域，如新零售、高德、大文娱等，我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富，可以有不同的解读，但基本上代表了几个方向。首先，阿里风控大脑是“大中台小前台”战略，由于阿里风控管的风险业务很多，领域非常杂，所以允许不同的领域、不同的风控场景可以有自己独特的交互，有自己的console，但是用到的底层引擎必须是中心化的，由风控引擎做统一计算和处理。第二，阿里风控大脑代表高智能，后续会有深度学习和无监督学习模型大量上线，防控策略及防控方式都会更加智能化。如下图所示，右侧是目前阿里风控覆盖的主要业务和防控的风控场景，如黑客攻击、消费者保护、商家保护等。左侧是阿里风控2019年双11的部分数据，保护了约388亿消费者的操作行为，同时挡住了约22亿次恶意攻击。2.典型防控链路用户通过阿里的APP或网站访问阿里的业务会产生大量操作。这些操作进来之后大概会经过如下图所示的七层防控...

代码星球·2021-02-24

Lyft 基于 Flink 的大规模准实时数据分析平台（附FFA大会视频）

/摘要：如何基于Flink搭建大规模准实时数据分析平台？在FlinkForwardAsia2019上，来自Lyft公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了Lyft基于ApacheFlink的大规模准实时数据分析平台。查看FFA大会视频。本次分享主要分为四个方面：Lyft的流数据与场景准实时数据分析平台和架构平台性能及容错深入分析总结与未来展望重要：文末「阅读原文」可查看FlinkForwardAsia大会视频。关于LyftLyft是位于北美的一个共享交通平台，和大家所熟知的Uber和国内的滴滴类似，Lyft也为民众提供共享出行的服务。Lyft的宗旨是提供世界最好的交通方案来改善人们的生活。Lyft的流数据场景Lyft的流数据可以大致分为三类，秒级别、分钟级别和不高于5分钟级别。分钟级别流数据中，自适应定价系统、欺诈和异常检测系统是最常用的，此外还有Lyft最新研发的机器学习特征工程。不高于5分钟级别的场景则包括准实时数据交互查询相关的系统。Lyft数据分析平台架构如下图所示的是Lyft之前的数据分析平台架构。Lyft的大部分流数据都是来自于事件，而事件产生的来源主要有两...

代码星球·2021-02-24

阿里经济体大数据平台的建设与思考

本文内容根据演讲视频以及PPT整理而成。首先从双11说起，双11已经成为阿里巴巴最大的单日促销活动。双11活动可能对于消费者而言只是一天而已，但是对于阿里巴巴和数百万商家而言，却是一个非常长线的工作。站在阿里巴巴的角度来看双11，其实无论是从业务线还是技术线，背后都存在着很多的思考。从“人、货、场”的角度看待双11。首先，对于“人”而言，双11需要回答什么样的消费者会看什么样的商品，以及每个人看到的商品是什么样子的。“货”则是对于商家而言的，商家需要知道在这次双11中，什么样的商品才能成为尖货，以及需要提前多久准备多少货才是最合适的。“场”的概念则更偏重于物流，比如需要提前将什么货物铺在什么地方才能够达到最优的物流执行效率。在“人、货、场”的背后存在两件事情，他们才是电商竞争力的关键。第一件事情就是供应链，如果能够提前长周期地布局供应链，包括柔性、精细化的供应链，对于商家双11大促和成本的降低将会产生非常大的作用。另外一件事情就是物流，前几年的时候每到双11物流就会爆仓，而最近几年虽然成交量在不断上涨，但是却没有再出现物流爆仓的情况。这背后的原因是阿里巴巴联合商家已经把消费者可能购买的...

代码星球·2021-02-24