包使用主题的文章列表，还有包使用的技术要点_第16页

在 Flink 算子中使用多线程如何保证不丢数据？

笔者线上有一个Flink任务消费Kafka数据，将数据转换后，在Flink的Sink算子内部调用第三方api将数据上报到第三方的数据分析平台。这里使用批量同步api，即：每50条数据请求一次第三方接口，可以通过批量api来提高请求效率。由于调用的外网接口，所以每次调用api比较耗时。假如批次大小为50，且请求接口的平均...

代码星球 ·2021-02-24

Serverless 实战——使用 Rendertron 搭建 Headless Chrome 渲染解决方案

传统的Web页面，通常是服务端渲染的，而随着SPA（Single-PageApplication）尤其是React、Vue、Angular为代表的前端框架的流行，越来越多的WebApp使用的是客户端渲染。使用客户端渲染有着诸多优势，比如节省后端资源、局部刷新、前后端分离等等，但也带来了一些挑战，比如本文要解决的SEO问...

代码星球 ·2021-02-24

使用DataWorks调度DLA循环任务

DataWorks是阿里云上的一款热门产品，可以为用户提供大数据开发调度服务。它支持了DataLakeAnalytics（后文简称DLA）以后，DLA用户可以通过它进行定时任务调度，非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。场景使用DLA对历史数据按天做清洗。数据清洗的SQL是固定的，只是...

代码星球 ·2021-02-24

MaxCompute SQL 使用正则表达式选列

编辑MaxComputeSQL时，经常会需要在某个表N个列中指定一些列。若需要指定的列比较少，编写SQL时一个个输入既可。当遇到列多的时候，一个个输入就会非常费劲。本文将介绍如何在编写MaxComputeSQL时通过正则表达式表达列（column），从而提升编码效率。首先用一个简单的示例介绍正则表达式的使用方法：SEL...

代码星球 ·2021-02-24

使用Data Lake Analytics读/写RDS数据

DataLakeAnalytics 作为云上数据处理的枢纽，最近加入了对于RDS(目前支持 MySQL , SQLServer ,Postgres 引擎)的支持,这篇教程带你玩转DLA的RDS支持。我们文章中会以 MySQL 的介绍为主，最...

代码星球 ·2021-02-24

使用Data Lake Analytics从OSS清洗数据到AnalyticDB

前提必须是同一阿里云region的DataLakeAnalytics（DLA）到AnalyticDB的才能进行清洗操作；开通并初始化了该region的DLA服务；开通并购买了AnalyticDB的实例，实例规模和数据清洗速度强相关，与AnalyticDB的实例资源规模基本成线性比例关系。整体执行流程示意图：步骤1：在A...

代码星球 ·2021-02-24

Data Lake Analytics中OSS LOCATION的使用说明

DataLakeAnalytic（后文简称DLA）可以帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。在查询前，用户需要根据数据文件的格式和内容在DLA中创建一张表。DataLakeAnalytics+OSS数据文件格式处理大全一文中介绍了如何定义表的SERDE和R...

代码星球 ·2021-02-24

如何使用Data Lake Analytics创建分区表

DataLakeAnalytics （后文简称DLA）提供了无服务化的大数据分析服务，帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。在关系型数据库中，用户可以对大数据量的表进行分区，提高查询的性能。同样在DLA中，用户可以使用分区表将数据进行细化，达到缩短查询响应时...

代码星球 ·2021-02-24

如何在Data Lake Analytics中使用临时表

DataLakeAnalytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品，可以对存储在OSS，OTS上的数据进行查询分析。相较于传统的数据分析产品，用户无需将数据重新加载至DLA，只需在DLA中创建一张与数据源关联的表，不仅简化了分析过程，还节约了存储成本，是做大数据分析的不二之选。当...

代码星球 ·2021-02-24

使用split_size优化的ODPS SQL的场景

使用split_size优化的ODPSSQL的场景首先有两个大背景需要说明如下：说明1：split_size，设定一个map的最大数据输入量，单位M，默认256M。用户可以通过控制这个变量，从而达到对map端输入的控制。设置语句：setodps.sql.mapper.split.size=256。一般在调整这个设置时，...

代码星球 ·2021-02-24

视频点播开发者实战：视频水印的基本使用

简介视频添加水印，即指在视频的编解码过程中将图片、文字等信息压制到视频流中合并输出一个带图文水印的新的视频文件。通常在视频上添加企业、品牌Logo、电视台台标、用户ID或昵称等标志性信息，可用于宣示对视频的版权归属或品牌宣传。水印类型视频点播支持三种水印类型：静态图片(png格式)、动态图片(gif、apng、mov视...

代码星球 ·2021-02-24

阿里在使用一种更灵活的软件集成发布模式

当今典型的软件集成发布模式是，通过类似GitHub的PullRequest或GitLab的MergeRequest的方式管理特性分支（FeatureBranch）：在通过代码评审等方法确认一条特性分支上的改动没问题后，将其合入集成用的分支。随后，代码改动进入在集成分支上运行的持续交付流水线，直到发布上线。在阿里巴巴内部...

代码星球 ·2021-02-24

Data Lake Analytics: 使用DataWorks来调度DLA任务

DataWorks作为阿里云上广受欢迎的大数据开发调度服务，最近加入了对于DataLakeAnalytics的支持，意味着所有DataLakeAnalytics的客户可以获得任务开发、任务依赖关系管理、任务调度、任务运维等等全方位强大的能力，今天就给大家介绍一下如何使用DataWorks来调度DLA的脚本任务。开通DL...

代码星球 ·2021-02-24

使用Data Lake Analytics + OSS分析CSV格式的TPC-H数据集

0.DataLakeAnalytics（DLA）简介关于DataLake的概念，更多阅读可以参考：https://en.wikipedia.org/wiki/Data_lake以及AWS和Azure关于DataLake的解读：https://amazonaws-china.com/big-data/datalakes-...

代码星球 ·2021-02-24

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在PyODPSDataFrame中使用三方包。对于二进制包而言，MaxCompute要求使用包名包含cp27-cp27m的Wheel包。但对于部分长时间未更新的包，例如oss2依赖的crcmod，PyPI并未提供Wheel包，因而需要自行打包。本文介绍了如何使用quay.io/pypa/manylinux...

代码星球 ·2021-02-24