#数仓

基于MaxCompute的数仓数据质量管理

声明本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。参考文献《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质...

更强大的实时数仓构建能力!分析型数据库PostgreSQL 6.0新特性解读

阿里云 AnalyticDBforPostgreSQL 为采用MPP架构的分布式集群数据库,完备支持SQL2003,部分兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。AnalyticDBPG通过行存储、列存储、多种分区表和索引等机制,可以支持海量数据的交付分析,...

如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。数据仓库是一个面向主题的(SubjectOriented)、集成的(Inte...
代码星球 ·2021-02-24

数仓调度研究-总论

作为一个IT从业不满三年的菜鸟,可能写类似总结性的文章还是比较费力,但是我还是想尝试写一篇比较出色总结,那么我讲从数据调度N个方面依次详细讲述ETL调度问题。回答内容如下:1.什么是数据调度2.数据调度的3.数仓调度的工具crontabquartzairflowazkabanoziee4.数据仓库的架构5.寻找合适数仓...
代码星球 ·2021-02-22

数仓中的全量表,增量表,拉链表,流水表,快照表

预热:我们先从几个物理概念入手理解什么是流量,存量,增量(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量=流入量--流出量(5)本期期末存量=上期期末存量+本期内增量正题一般公司只是简单分成全量表,增量表,和拉链表...

大数据学习——hive数仓DML和DDL操作

1创建一个分区表createtablet_partition001(ipstring,durationint)partitionedby(countrystring)rowformatdelimitedfieldsterminatedby',';2添加数据loaddatalocalinpath'/root/hiveda...

实时数仓之(2)flink实时数仓从入门到实战

第一章、flink实时数仓入门一、依赖 <!--LicensedtotheApacheSoftwareFoundation(ASF)underoneormorecontributorlicenseagreements.SeetheNOTICEfiledistributedwiththisworkfora...

实时数仓之(1)大数据之Hudi + Kylin的准实时数仓实现

问题导读:1、数据库、数据仓库如何理解?2、数据湖有什么用途?解决什么问题?3、数据仓库的加载链路如何实现?4、Hudi新一代数据湖项目有什么优势?在近期的ApacheKylin×ApacheHudiMeetup直播上,ApacheKylinPMCChair史少锋和Kyligence解决方案工程师刘永恒就H...

数仓1.2 |分层| ODS& DWD& DWS& ADS| 行为数仓

ODS:OperationDataStore原始数据DWD(数据清洗/DWI)datawarehousedetail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)datawarehouseservice----->有多少个宽表?多少个字段服务层--留存-转化-GMV...
代码星球 ·2020-04-16

数仓整体架构

1.数据中心整体架构    数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。2.数据仓库的ODS、DW和DM概念...
代码星球 ·2020-04-12

知乎实时数仓实践及架构演进

https://blog.csdn.net/rlnLo2pNEfx9c/article/details/90191204...