51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ODPS
使用split_size优化的ODPS SQL的场景
使用split_size优化的ODPSSQL的场景首先有两个大背景需要说明如下:说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:setodps.sql.mapper.split.size=256。一般在调整这个设置时,...
代码星球
·
2021-02-24
使用
split
size
优化
ODPS
PyODPS DataFrame 处理笛卡尔积的几种方式
PyODPS 提供了DataFrameAPI来用类似pandas的接口进行大规模数据分析以及预处理,本文主要介绍如何使用PyODPS执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例,假设大表Coordinates1存储目标点经纬度坐标,共有M行数据,小表Coordi...
代码星球
·
2021-02-23
PyODPS
DataFrame
处理
笛卡尔
几种
PyODPS DataFrame 的代码在哪里跑
在使用PyODPSDataFrame编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。假定我们要执行下面的代码:fromodpsimportODPS,optionsimportnum...
代码星球
·
2021-02-23
PyODPS
DataFrame
代码
在哪里
odps 使用参考 & tips
1. 自定义udf编写udf1)pom.xml<dependency><groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-udf</artifactId><version>0.17...
代码星球
·
2020-04-11
odps
使用
参考
tips
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他