#数据清洗

嗖的一下!只要一条命令,K8s监控数据一键写入时序数据库

/这里的“快速”有多快呢?一条命令就能搞定!本文就介绍如何使用helm一键完成k8s监控数据到阿里云InfluxDB®的存储链路。对于helm的安装和使用,网上有很多资料,这里不赘述。有一点需要注意,虽然近期helm3已经发布,但短期内不是所有的helmchart都兼容helm3,比如社区的这个issue。本文依然使用...

在 Flink 算子中使用多线程如何保证不丢数据?

笔者线上有一个Flink任务消费Kafka数据,将数据转换后,在Flink的Sink算子内部调用第三方api将数据上报到第三方的数据分析平台。这里使用批量同步api,即:每50条数据请求一次第三方接口,可以通过批量api来提高请求效率。由于调用的外网接口,所以每次调用api比较耗时。假如批次大小为50,且请求接口的平均...

日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践

/导读:当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业App中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构...

Struct复杂数据类型的UDF编写、GenericUDF编写

一、背景介绍:MaxCompute2.0版本升级后,JavaUDF支持的数据类型从原来的BIGINT、STRING、DOUBLE、BOOLEAN扩展了更多基本的数据类型,同时还扩展支持了ARRAY、MAP、STRUCT等复杂类型,以及Writable参数。JavaUDF使用复杂数据类型的方法,STRUCT对应com.a...

实战课堂 | 让大数据分析更简单,4步教你玩转MongoDB BI Connector

MongoDB使用BIConnector支持BI组件直接使用SQL或ODBC数据源方式直接访问MongoDB,在早期MongoDB直接使用PostgresqlFDW实现SQL到MQL的转换,后来实现更加轻量级的mongosqld支持BI工具的连接。参考 InstallBIConnectorhttps://do...

万字干货 | 每秒7亿次请求,阿里新一代数据库如何支撑?

Lindorm,就是云操作系统飞天中面向大数据存储处理的重要组成部分。Lindorm是基于HBase研发的、面向大数据领域的分布式NoSQL数据库,集大规模、高吞吐、快速灵活、实时混合能力于一身,面向海量数据场景提供世界领先的高性能、可跨域、多一致、多模型的混合存储处理能力。目前,Lindorm已经全面服务于阿里经济体...

可闭环、可沉淀、可持续的企业级数据赋能体系

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下两个方面:一、构建可闭环、可沉淀、可持续的企业级数据赋能体系的背景二、开发者数据银行1.数据“四化”如何让属于企业自己的不同触点的数据快速形成一个闭环,沉淀串联这些零散的数据能够快速应用去赋能业务?这涉及到四个关键词,一是业务数据化,企业所有触点是否为真,是否...

Flink SQL 如何实现数据流的 Join?

无论在OLAP还是OLTP领域,Join都是业务常会涉及到且优化规则比较复杂的SQL语句。对于离线计算而言,经过数据库领域多年的积累,Join语义以及实现已经十分成熟,然而对于近年来刚兴起的StreamingSQL来说Join却处于刚起步的状态。其中最为关键的问题在于Join的实现依赖于缓存整个数据集,而Streami...

阿里风控大脑关于大数据应用的探索与实践

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下三个方面:一、阿里风控大脑整体介绍二、近线引擎三、离线引擎1.阿里风控大脑是什么?阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富,可以有不同的解读...

Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)

/摘要:如何基于Flink搭建大规模准实时数据分析平台?在FlinkForwardAsia2019上,来自Lyft公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了Lyft基于ApacheFlink的大规模准实时数据分析平台。查看FFA大会视频。本次分享主要分为四个方面:Lyft的流数据与场景准实时数据分析平台和...

阿里经济体大数据平台的建设与思考

本文内容根据演讲视频以及PPT整理而成。首先从双11说起,双11已经成为阿里巴巴最大的单日促销活动。双11活动可能对于消费者而言只是一天而已,但是对于阿里巴巴和数百万商家而言,却是一个非常长线的工作。站在阿里巴巴的角度来看双11,其实无论是从业务线还是技术线,背后都存在着很多的思考。从“人、货、场”的角度看待双11。首...

五年双十一:SLS数据管道发展之路

日志服务SLS是一款飞天团队自研产品,服务云上云下3W+客户,并在阿里经济体中作为日志数据的基础设施,在过去几年中经历多次双十一、双十二、新春红包锤炼。在2019双十一中:服务阿里经济体3W+应用,1.5W外部独立客户峰值30TB/min、单集群峰值11TB/min单日志峰值600GB/min单业务线峰值1.2TB/m...

如何保障云上数据安全?一文详解云原生全链路加密

/导读:对于云上客户而言,其云上数据被妥善的安全保护是其最重要的安全需求,也是云上综合安全能力最具象的体现。本文作者将从云安全体系出发,到云数据安全,再到云原生安全体系对全链路加密进行一次梳理,从而回答:在云原生时代,全链路加密需要做什么?如何做到?以及未来要做什么?数据安全在云上的要求,可以用信息安全基本三要素"CI...

Quick BI支持哪些数据源(配置操作篇)

 QuickBI潜心打造了核心技术底座(OLAP分析引擎),实现了SQL解析、SQL调度、SQL优化、查询加速等基础能力,支撑QuickBI的数据分析和查询加速。OLAP分析引擎包括数据源连接、数据模型、智能查询路由、通用查询、加速查询等5大核心能力。今天就QuickBI的数据源连接能力,小编给大家作个详细介...

RPA走专有云还是公共云?阿里云RPA公共云给出了这样几组数据…

 自从近年国外UIPATH、AUTOMATIONANYWHERE、BLUEPRISM等RPA企业的崛起,RoboticProcessAutomation(RPA)走进了人们视野。它以节省成本、提升效率、优化人才结构等承诺吸引了数字运营主管的关注,此技术不仅节省了劳动力套利,还通过延长遗留IT的寿命来避免成本,...
首页上一页...1415161718...下一页尾页