为您找到搜索结果:6263个
嗖的一下!只要一条命令,K8s监控数据一键写入时序数据库
/这里的“快速”有多快呢?一条命令就能搞定!本文就介绍如何使用helm一键完成k8s监控数据到阿里云InfluxDB®的存储链路。对于helm的安装和使用,网上有很多资料,这里不赘述。有一点需要注意,虽然近期helm3已经发布,但短期内不是所有的helmchart都兼容helm3,比如社区的这个issue。本文依然使用helm2来安装。这里假设用户已经在阿里云购买了InfluxDB®实例,并且创建了账号以及数据库,具体流程请参考官方文档。假设使用的数据库为k8s,用户名是user1,密码为abcd1234。InfluxDB®的访问地址可以在阿里云控制台看到,如果kubernetes集群同InfluxDB®在同一个阿里云VPC,可以使用VPC地址,否则需要使用公网地址。这里假设访问地址为 https://ts-yourisntanceid.influxdata.rds.aliyuncs.com:3242配置好了helm,要做的就是运行下面这条命令:然后可以看到数据写入到influxdb数据库中了。这可能是最短的使用教程了。因为k8s的监控指标以prometheus格式暴露,这个...
在 Flink 算子中使用多线程如何保证不丢数据?
笔者线上有一个Flink任务消费Kafka数据,将数据转换后,在Flink的Sink算子内部调用第三方api将数据上报到第三方的数据分析平台。这里使用批量同步api,即:每50条数据请求一次第三方接口,可以通过批量api来提高请求效率。由于调用的外网接口,所以每次调用api比较耗时。假如批次大小为50,且请求接口的平均响应时间为50ms,使用同步api,因此第一次请求响应以后才会发起第二次请求。请求示意图如下所示:平均下来,每50ms向第三方服务器发送50条数据,也就是每个并行度1秒钟处理1000条数据。假设当前业务数据量为每秒10万条数据,那么FlinkSink算子的并行度需要设置为100才能正常处理线上数据。从Flink资源分配来讲,100个并行度需要申请100颗CPU,因此当前Flink任务需要占用集群中100颗CPU以及不少的内存资源。请问此时FlinkSink算子的CPU或者内存压力大吗?上述请求示意图可以看出Flink任务发出请求到响应这50ms期间,FlinkSink算子只是在wait,并没有实质性的工作。因此,CPU使用率肯定很低,当前任务的瓶颈明显在网络IO。最后结论...
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践
/导读:当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业App中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超10亿,接入上百种合规数据源。传统基于Hadoop生态的离线数据存储计算方案已在业界大规模应用,但受制于离线计算的高时延性,越来越多的数据应用场景已从离线转为实时。这里引用一张表格对目前主流的实时计算框架做个对比。ApacheStorm的容错机制需要对每条数据进行应答(ACK),因此其吞吐量备受影响,在数据大吞吐量的场景下会有问题,因此不适用此项目的需求。ApacheSpark总体生态更为完善,且在机器学习的集成和应用性暂时领先,但Spark底层还是采用微批(MicroBatching)处理的形式。Apache...
Struct复杂数据类型的UDF编写、GenericUDF编写
一、背景介绍:MaxCompute2.0版本升级后,JavaUDF支持的数据类型从原来的BIGINT、STRING、DOUBLE、BOOLEAN扩展了更多基本的数据类型,同时还扩展支持了ARRAY、MAP、STRUCT等复杂类型,以及Writable参数。JavaUDF使用复杂数据类型的方法,STRUCT对应com.aliyun.odps.data.Struct。com.aliyun.odps.data.Struct从反射看不出FieldName和FieldType,所以需要用@Resolve注解来辅助。即如果需要在UDF中使用STRUCT,要求在UDFClass上也标注上@Resolve注解。但是当我们Struct类型中的field有很多字段的时候,这个时候需要我们去手动的添加@Resolve注解就不是那么的友好。针对这一个问题,我们可以使用Hive中的GenericUDF去实现。MaxCompute2.0支持Hive风格的UDF,部分HiveUDF、UDTF可以直接在MaxCompute上使用。二、复杂数据类型UDF示例示例定义了一个有三个复杂数据类型的UDF,其中第一个用ARRA...
实战课堂 | 让大数据分析更简单,4步教你玩转MongoDB BI Connector
MongoDB使用BIConnector支持BI组件直接使用SQL或ODBC数据源方式直接访问MongoDB,在早期MongoDB直接使用PostgresqlFDW实现SQL到MQL的转换,后来实现更加轻量级的mongosqld支持BI工具的连接。参考 InstallBIConnectorhttps://docs.mongodb.com/bi-connector/master/installation/mongosqld接受SQL查询,并将请求发到MongoDBServer,是BIConnector的核心mongodrdl工具生成数据库schema信息,用于服务BISQL查询mongotranslate工具将SQL查询转换为MongoDBAggregationPipeline参考LauchBIConnectorhttps://docs.mongodb.com/bi-connector/current/launch/--addr指定mongosqld监听的地址--mongo-uri指定连接的MongoDBServer地址默认情况下,mongosqld自动会分析目标MongoDB...
万字干货 | 每秒7亿次请求,阿里新一代数据库如何支撑?
Lindorm,就是云操作系统飞天中面向大数据存储处理的重要组成部分。Lindorm是基于HBase研发的、面向大数据领域的分布式NoSQL数据库,集大规模、高吞吐、快速灵活、实时混合能力于一身,面向海量数据场景提供世界领先的高性能、可跨域、多一致、多模型的混合存储处理能力。目前,Lindorm已经全面服务于阿里经济体中的大数据结构化、半结构化存储场景。注:Lindorm是阿里内部HBase分支的别称,在阿里云上对外售卖的版本叫做HBase增强版,之后文中出现的HBase增强版和Lindorm都指同一个产品。2019年以来,Lindorm已经服务了包括淘宝、天猫、蚂蚁、菜鸟、妈妈、优酷、高德、大文娱等数十个BU,在今年的双十一中,Lindorm峰值请求达到了7.5亿次每秒,天吞吐22.9万亿次,平均响应时间低于3ms,整体存储的数据量达到了数百PB。这些数字的背后,凝聚了HBase&Lindorm团队多年以来的汗水和心血。Lindorm脱胎于HBase,是团队多年以来承载数百PB数据,亿级请求量,上千个业务后,在面对规模成本压力,以及HBase自身缺陷下,全面重构和引擎升级的全...
可闭环、可沉淀、可持续的企业级数据赋能体系
以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下两个方面:一、构建可闭环、可沉淀、可持续的企业级数据赋能体系的背景二、开发者数据银行1.数据“四化”如何让属于企业自己的不同触点的数据快速形成一个闭环,沉淀串联这些零散的数据能够快速应用去赋能业务?这涉及到四个关键词,一是业务数据化,企业所有触点是否为真,是否被打通。第二是数据资产化,能否可以像管理资产一样很好地管理数据。第三是资产应用化,企业的资产能否有效应用?如何借助数据资产赋能业务,最后是应用价值化。所有的应用最终一定是为增长、为获客而服务,必须要有价值。在这背后最重要的是场景必须可闭环,数据必须可沉淀,最终数据中台、数据能源才是可持续的。2.构建可闭环、可沉淀的数据赋能体系的意义与价值下图展示了一套可闭环、可沉淀、可持续的企业级数据赋能体系是如何构建的。下图友盟+会推出一个面向企业的数据银行。数据银行和业务是一种什么样的协作关系?开发者数据银行会基于云基础设施,如MaxComput等,不断帮助企业采集各种场景、触点的数据,做相应的数据治理、提纯、模型加工、形成各种应用服务,基于UMID打通能力,多账号归一,多端归一,支...
Flink SQL 如何实现数据流的 Join?
无论在OLAP还是OLTP领域,Join都是业务常会涉及到且优化规则比较复杂的SQL语句。对于离线计算而言,经过数据库领域多年的积累,Join语义以及实现已经十分成熟,然而对于近年来刚兴起的StreamingSQL来说Join却处于刚起步的状态。其中最为关键的问题在于Join的实现依赖于缓存整个数据集,而StreamingSQLJoin的对象却是无限的数据流,内存压力和计算效率在长期运行来说都是不可避免的问题。下文将结合SQL的发展解析FlinkSQL是如何解决这些问题并实现两个数据流的Join。传统的离线BatchSQL(面向有界数据集的SQL)有三种基础的实现方式,分别是Nested-loopJoin、Sort-MergeJoin和HashJoin。Nested-loopJoin最为简单直接,将两个数据集加载到内存,并用内嵌遍历的方式来逐个比较两个数据集内的元素是否符合Join条件。Nested-loopJoin虽然时间效率以及空间效率都是最低的,但胜在比较灵活适用范围广,因此其变体BNL常被传统数据库用作为Join的默认基础选项。Sort-MergeJoin顾名思义,分为两个So...
阿里风控大脑关于大数据应用的探索与实践
以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下三个方面:一、阿里风控大脑整体介绍二、近线引擎三、离线引擎1.阿里风控大脑是什么?阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富,可以有不同的解读,但基本上代表了几个方向。首先,阿里风控大脑是“大中台小前台”战略,由于阿里风控管的风险业务很多,领域非常杂,所以允许不同的领域、不同的风控场景可以有自己独特的交互,有自己的console,但是用到的底层引擎必须是中心化的,由风控引擎做统一计算和处理。第二,阿里风控大脑代表高智能,后续会有深度学习和无监督学习模型大量上线,防控策略及防控方式都会更加智能化。如下图所示,右侧是目前阿里风控覆盖的主要业务和防控的风控场景,如黑客攻击、消费者保护、商家保护等。左侧是阿里风控2019年双11的部分数据,保护了约388亿消费者的操作行为,同时挡住了约22亿次恶意攻击。2.典型防控链路用户通过阿里的APP或网站访问阿里的业务会产生大量操作。这些操作进来之后大概会经过如下图所示的七层防控...
Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)
/摘要:如何基于Flink搭建大规模准实时数据分析平台?在FlinkForwardAsia2019上,来自Lyft公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了Lyft基于ApacheFlink的大规模准实时数据分析平台。查看FFA大会视频。本次分享主要分为四个方面:Lyft的流数据与场景准实时数据分析平台和架构平台性能及容错深入分析总结与未来展望重要:文末「阅读原文」可查看FlinkForwardAsia大会视频。关于LyftLyft是位于北美的一个共享交通平台,和大家所熟知的Uber和国内的滴滴类似,Lyft也为民众提供共享出行的服务。Lyft的宗旨是提供世界最好的交通方案来改善人们的生活。Lyft的流数据场景Lyft的流数据可以大致分为三类,秒级别、分钟级别和不高于5分钟级别。分钟级别流数据中,自适应定价系统、欺诈和异常检测系统是最常用的,此外还有Lyft最新研发的机器学习特征工程。不高于5分钟级别的场景则包括准实时数据交互查询相关的系统。Lyft数据分析平台架构如下图所示的是Lyft之前的数据分析平台架构。Lyft的大部分流数据都是来自于事件,而事件产生的来源主要有两...
阿里经济体大数据平台的建设与思考
本文内容根据演讲视频以及PPT整理而成。首先从双11说起,双11已经成为阿里巴巴最大的单日促销活动。双11活动可能对于消费者而言只是一天而已,但是对于阿里巴巴和数百万商家而言,却是一个非常长线的工作。站在阿里巴巴的角度来看双11,其实无论是从业务线还是技术线,背后都存在着很多的思考。从“人、货、场”的角度看待双11。首先,对于“人”而言,双11需要回答什么样的消费者会看什么样的商品,以及每个人看到的商品是什么样子的。“货”则是对于商家而言的,商家需要知道在这次双11中,什么样的商品才能成为尖货,以及需要提前多久准备多少货才是最合适的。“场”的概念则更偏重于物流,比如需要提前将什么货物铺在什么地方才能够达到最优的物流执行效率。在“人、货、场”的背后存在两件事情,他们才是电商竞争力的关键。第一件事情就是供应链,如果能够提前长周期地布局供应链,包括柔性、精细化的供应链,对于商家双11大促和成本的降低将会产生非常大的作用。另外一件事情就是物流,前几年的时候每到双11物流就会爆仓,而最近几年虽然成交量在不断上涨,但是却没有再出现物流爆仓的情况。这背后的原因是阿里巴巴联合商家已经把消费者可能购买的...
五年双十一:SLS数据管道发展之路
日志服务SLS是一款飞天团队自研产品,服务云上云下3W+客户,并在阿里经济体中作为日志数据的基础设施,在过去几年中经历多次双十一、双十二、新春红包锤炼。在2019双十一中:服务阿里经济体3W+应用,1.5W外部独立客户峰值30TB/min、单集群峰值11TB/min单日志峰值600GB/min单业务线峰值1.2TB/min支持核心电商、妈妈、蚂蚁、菜鸟、盒马、优酷、高德、大文娱、中间件、天猫精灵等团队日志的全量上云与30+数据源、20+数据处理、计算系统无缝打通(如下)能够服务这个体量和用户规模,对产品的功能、体验、系统的稳定性和可靠性的要求是很高的。感谢阿里经济体独一无二的环境与挑战,使得我们过去五年中持续不断地对产品与技术进行考验与磨炼。/数据管道是什么?数据管道概念诞生在2009年,提出的是LinkedIn工程师JayKrep,Jay也是ApacheKafka作者+Confluent公司CEO。2012年他在文章《TheLog:Whateverysoftwareengineershouldknowaboutreal-timedata'sunifyingabstraction》中提...
如何保障云上数据安全?一文详解云原生全链路加密
/导读:对于云上客户而言,其云上数据被妥善的安全保护是其最重要的安全需求,也是云上综合安全能力最具象的体现。本文作者将从云安全体系出发,到云数据安全,再到云原生安全体系对全链路加密进行一次梳理,从而回答:在云原生时代,全链路加密需要做什么?如何做到?以及未来要做什么?数据安全在云上的要求,可以用信息安全基本三要素"CIA"来概括,即机密性(Confidentiality)、完整性(Integrity)和可用性(Availability)。机密性专指受保护数据只可以被合法的(或预期的)用户可访问,其主要实现手段包括数据的访问控制、数据防泄露、数据加密和密钥管理等手段;完整性是保证只有合法的(或预期的)用户才能修改数据,主要通过访问控制来实现,同时在数据的传输和存储中可以通过校验算法来保证用户数据的完整性;数据的可用性主要体现在云上环境整体的安全能力、容灾能力、可靠度,以及云上各个相关系统(存储系统、网络通路、身份验证机制和权限校验机制等等)的正常工作保障。在三要素中,第一要素机密性(Confidentiality)最常见也是最常被要求的技术实现手段就是数据加密。具体到云原生维度,需要实现...
Quick BI支持哪些数据源(配置操作篇)
QuickBI潜心打造了核心技术底座(OLAP分析引擎),实现了SQL解析、SQL调度、SQL优化、查询加速等基础能力,支撑QuickBI的数据分析和查询加速。OLAP分析引擎包括数据源连接、数据模型、智能查询路由、通用查询、加速查询等5大核心能力。今天就QuickBI的数据源连接能力,小编给大家作个详细介绍!数据源是QuickBI用于连接业务数据库的管理功能,是数据分析的基础准备工作。QuickBI数据源,仅做数据源连接、SQL任务解析及调度,所有的数据都存在原数据所有的数据库,QuickBI不做任何数据的复制。QuickBI支持24种数据源,包括14种阿里云数据库、10种本地数据库,API数据源对接能力尚在建设中。1)支持的阿里云数据库QuickBI作为阿里云上的BI产品,与阿里云上的数据库可以无缝兼容。我们支持MaxCompute、MySQL、SQLServer、AnalyticDBforMySQL2.0、HybridDBforMySQL、AnalyticDBforPostgreSQL、PostgreSQL、PPAS、DataLakeAnalytics、Hive、DR...
RPA走专有云还是公共云?阿里云RPA公共云给出了这样几组数据…
自从近年国外UIPATH、AUTOMATIONANYWHERE、BLUEPRISM等RPA企业的崛起,RoboticProcessAutomation(RPA)走进了人们视野。它以节省成本、提升效率、优化人才结构等承诺吸引了数字运营主管的关注,此技术不仅节省了劳动力套利,还通过延长遗留IT的寿命来避免成本,能实现比传统IT项目更快的效率进行实施,因而,RPA成为了全球资本市场的“新宠儿”。然而全球市场的火热和国内市场的情况却截然不同,2019年被称为国内市场RPA发展的元年,国内市场虽预计每年将以100%以上的增长率增加,但这并不能掩盖国内RPA的推广的难度较大的事实。由于市场对RPA的认知甚少,RPA本身存在着问题,同时中国企业和国外企业之间的环境差异较大,使得RPA推广并不容易,出现客户经理耗费数月时间进行推广,1对1沟通,客户时常因为会质疑RPA到底能否达成预期承诺的ROI,能否真正节省人力成本而拒绝。目前RPA在市场推广大多走的是专有云或私有化部署,多是定制化开发,此方式传播力相对薄弱且耗时长。为加快传播力,AutomationAnywhere通过打造Bot商店,短...