COMPUTE主题的文章列表，还有COMPUTE的技术要点_第3页

MaxCompute Mars开发指南

Mars是一个基于矩阵的统一分布式计算框架，而且 Mars 已经在GitHub中开源。当你看完Mars的介绍可能会问它能做什么，这几乎取决于你想做什么，因为Mars作为底层运算库，实现了 numpy 70%的常用接口。这篇文章将会介绍如何使用Mars完成你想做的事情。...

代码星球 ·2021-02-24

基于MaxCompute的数仓数据质量管理

声明本文中介绍的非功能性规范均为建议性规范，产品功能无强制，仅供指导。参考文献《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产，既然是资产，肯定需要管理。随着业务的增加，数据的应用越来越多，企业在创建的数仓过程中对数据的管理也提出了更高的要求，而数据质...

代码星球 ·2021-02-24

十年磨一剑，王坚自研的MaxCompute如何解决世界级算力难题

/摘要： 2009年这项关于大数据的技术长征开始。王坚带队，目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。大数据时代，随着企业数据规模的急剧增长，传统软件已无法承载，这也推动了大数据技术的发展，Google、AWS、微软等硅谷巨头纷纷投入大数据技术的研发；而在国内，王坚也...

代码星球 ·2021-02-24

王坚十年前的坚持，才有了今天世界顶级大数据计算平台MaxCompute

如果说十年前，王坚创立阿里云让云计算在国内得到了普及，那么王坚带领团队自主研发的大数据计算平台MaxCompute则推动大数据技术向前跨越了一大步。数据是企业的核心资产，但十年前阿里巴巴的算力已经无法满足当时急剧增长数据量的需求。基于Hadoop搭建集群是当时解决大规模数据计算的主流方案，Hadoop生态已经比较成熟，...

代码星球 ·2021-02-24

MaxCompute SQL 使用正则表达式选列

编辑MaxComputeSQL时，经常会需要在某个表N个列中指定一些列。若需要指定的列比较少，编写SQL时一个个输入既可。当遇到列多的时候，一个个输入就会非常费劲。本文将介绍如何在编写MaxComputeSQL时通过正则表达式表达列（column），从而提升编码效率。首先用一个简单的示例介绍正则表达式的使用方法：SEL...

代码星球 ·2021-02-24

MaxCompute如何对SQL查询结果实现分页获取

由于MaxComputeSQL本身不提供类似数据库的select*fromtablelimitxoffsety的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑，对查询结果进行分页/分批获取结果，本文将介绍几种方法，来实现上述场景。1.借助row_number()函数作为递增唯一标识进行过滤...

代码星球 ·2021-02-24

MaxCompute助力小影短视频走向全球化

数字时代，中国已经成为世界互联网的中心，小影（海外版称作为VivaVideo，后简称VivaVideo）作为国内首批短视频出海企业，借助统一的云计算平台快速实现全球业务的线上部署，已经让每一行代码都获得全球化的能力。3月21日，在2019阿里云峰会北京的互联网出海专场上，VivaVideo技术副总裁顾湘余表示，在国际市...

代码星球 ·2021-02-24

在MaxCompute中配置Policy策略遇到结果不一致的问题

背景信息：本文以如下场景为基准进行编写，如下：用户通过DataWorks-简单模式使用MaxCompute；用户具有DataWorks默认角色，如DataWorks开发者角色；用户通过console提交policy配置精细化权限管控，本案例以禁止某一些用户群体（role）可以删除以tb_开头的表为例来展开讨论。解决方案...

代码星球 ·2021-02-24

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks归档日志服务数据至MaxCompute官方指导文档：https://help.aliyun.com/document_detail/68322.html但是会遇到大家在分区上或者DataWorks调度参数配置问题，具体拿到真实的case模拟如下：创建数据源：步骤1、进入数据集成，点击作业数据源，进...

代码星球 ·2021-02-24

MaxCompute推出面向开发者的专属版本，普惠大数据开发者

3月20号，阿里云正式对外宣布推出MaxCompute产品的新规格-开发者版。MaxCompute开发者版是阿里云大数据计算服务发布的开发者专属版本。区别于原有的按量付费、按CU预付费规格，开发者版是面向开发者群体的优惠套餐，为开发版项目免费提供500GB的存储空间和每月100元的免费计算费用。开发者版作为MaxCom...

代码星球 ·2021-02-24

Amazon Redshift数据迁移到MaxCompute

AmazonRedshift数据迁移到MaxComputeAmazonRedshift中的数据迁移到MaxCompute中经常需要先卸载到S3中，再到阿里云对象存储OSS中，大数据计算服务MaxCompute然后再通过外部表的方式直接读取OSS中的数据。如下示意图：前提条件本文以SQLWorkbench/J工具来连接R...

代码星球 ·2021-02-24

一文快速了解MaxCompute

很多刚初次接触MaxCompute的用户，面对繁多的产品文档内容以及社区文章，往往很难快速、全面了解MaxCompute产品全貌。同时，很多拥有大数据开发经验的开发者，也希望能够结合自身的背景知识，将MaxCompute产品能力与开源项目、商业软件之间建立某种关联和映射，以快速寻找或判断MaxCompute是否满足自身...

代码星球 ·2021-02-24

MaxCompute Spark开发指南

本文档面向需要使用MaxComputeSpark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。MaxComputeSpark是MaxCompute提供的兼容开源的Spark计算服务，它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作...

代码星球 ·2021-02-24

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在PyODPSDataFrame中使用三方包。对于二进制包而言，MaxCompute要求使用包名包含cp27-cp27m的Wheel包。但对于部分长时间未更新的包，例如oss2依赖的crcmod，PyPI并未提供Wheel包，因而需要自行打包。本文介绍了如何使用quay.io/pypa/manylinux...

代码星球 ·2021-02-24

maxcompute 2.0复杂数据类型之array

1.含义类似于Java中的array。有序、可重复。2.场景什么样的数据，适合使用array类型来存储呢？这里列举了几个我在开发中实际用到的场景。2.1标签类的数据为什么说标签类数据适合使用array类型呢？（1）标签一般是一个只有key、没有value的结构；（2）标签的数量（枚举值个数）会非常多；（3）标签的变化会...

代码星球 ·2021-02-24