#MaxCompute

春蔚专访--MaxCompute 与 Calcite 的技术和故事

/摘要:2019大数据技术公开课第一季《技术人生专访》,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute与Calcite的技术和故事。具体内容包括:1)什么是查询优化器;2)MaxCompute查询优化器的具体实践;3)MaxCompute后续计划;4)从校招到阿里巴巴工程师到Calcite...

MaxCompute 助力衣二三构建智能化运营工具

/摘要:本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助...

MaxCompute 图计算用户手册(下)

在有向图中,如果从任意一个顶点出发,都能通过图中的边到达图中的每一个顶点,则称之为强连通图。一张有向图的顶点数极大的强连通子图称为强连通分量。此算法示例基于 parallelColoringalgorithm。每个顶点包含两个部分,如下所示:colorID:在向前遍历过程中存储顶点v的颜色,在计算结束时,具有...

MaxCompute 图计算用户手册(上)

ODPSGRAPH是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value),ODPSGRAPH支持下述图编辑操作:修改点或边的权值;增加/删除点;增加/删除边;/备注:编辑点和边时,点与边的关系需要用户维护。通过迭代对图进行编辑、演化,最终求解出...

MaxCompute 图计算开发指南

创建完成 MaxComputeJavaModule后,即可以开始开发Graph了。代码示例在examples目录下有graph的一些代码示例,可参考示例熟悉Graph程序的结构。编写Graph在module的源码目录即src>main>javanewMaxComputeJava。选择GraphLo...
代码星球 ·2021-02-24

MaxCompute Mars开发指南

Mars是一个基于矩阵的统一分布式计算框架 ,而且 Mars 已经在GitHub中开源。当你看完Mars的介绍可能会问它能做什么,这几乎取决于你想做什么,因为Mars作为底层运算库,实现了 numpy 70%的常用接口。这篇文章将会介绍如何使用Mars完成你想做的事情。...
代码星球 ·2021-02-24

基于MaxCompute的数仓数据质量管理

声明本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。参考文献《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质...

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题

/摘要: 2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。大数据时代,随着企业数据规模的急剧增长,传统软件已无法承载,这也推动了大数据技术的发展,Google、AWS、微软等硅谷巨头纷纷投入大数据技术的研发;而在国内,王坚也...

王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute

如果说十年前,王坚创立阿里云让云计算在国内得到了普及,那么王坚带领团队自主研发的大数据计算平台MaxCompute则推动大数据技术向前跨越了一大步。数据是企业的核心资产,但十年前阿里巴巴的算力已经无法满足当时急剧增长数据量的需求。基于Hadoop搭建集群是当时解决大规模数据计算的主流方案,Hadoop生态已经比较成熟,...

MaxCompute SQL 使用正则表达式选列

编辑MaxComputeSQL时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxComputeSQL时通过正则表达式表达列(column),从而提升编码效率。首先用一个简单的示例介绍正则表达式的使用方法:SEL...

MaxCompute如何对SQL查询结果实现分页获取

由于MaxComputeSQL本身不提供类似数据库的select*fromtablelimitxoffsety的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。1.借助row_number()函数作为递增唯一标识进行过滤...

MaxCompute助力小影短视频走向全球化

数字时代,中国已经成为世界互联网的中心,小影(海外版称作为VivaVideo,后简称VivaVideo)作为国内首批短视频出海企业,借助统一的云计算平台快速实现全球业务的线上部署,已经让每一行代码都获得全球化的能力。3月21日,在2019阿里云峰会北京的互联网出海专场上,VivaVideo技术副总裁顾湘余表示,在国际市...

在MaxCompute中配置Policy策略遇到结果不一致的问题

背景信息:本文以如下场景为基准进行编写,如下:用户通过DataWorks-简单模式使用MaxCompute;用户具有DataWorks默认角色,如DataWorks开发者角色;用户通过console提交policy配置精细化权限管控,本案例以禁止某一些用户群体(role)可以删除以tb_开头的表为例来展开讨论。解决方案...

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks归档日志服务数据至MaxCompute官方指导文档:https://help.aliyun.com/document_detail/68322.html但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:创建数据源:步骤1、进入数据集成,点击作业数据源,进...

MaxCompute推出面向开发者的专属版本,普惠大数据开发者

3月20号,阿里云正式对外宣布推出MaxCompute产品的新规格-开发者版。MaxCompute开发者版是阿里云大数据计算服务发布的开发者专属版本。区别于原有的按量付费、按CU预付费规格,开发者版是面向开发者群体的优惠套餐,为开发版项目免费提供500GB的存储空间和每月100元的免费计算费用。开发者版作为MaxCom...
首页上一页1234下一页尾页