51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#Datafram
PyODPS DataFrame 处理笛卡尔积的几种方式
PyODPS 提供了DataFrameAPI来用类似pandas的接口进行大规模数据分析以及预处理,本文主要介绍如何使用PyODPS执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例,假设大表Coordinates1存储目标点经纬度坐标,共有M行数据,小表Coordi...
代码星球
·
2021-02-23
PyODPS
DataFrame
处理
笛卡尔
几种
PyODPS DataFrame 的代码在哪里跑
在使用PyODPSDataFrame编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。假定我们要执行下面的代码:fromodpsimportODPS,optionsimportnum...
代码星球
·
2021-02-23
PyODPS
DataFrame
代码
在哪里
pandas DataFrame 数据筛选
一、使用【】1.单条件筛选最大逾期天数小于10due_days=10last_loan_df=last_loan_df[last_loan_df['max_due_days']<=due_days]2.多条件筛选或last_loan_df=last_loan_df[(last_loan_df['max_due_d...
代码星球
·
2021-02-22
pandas
DataFrame
数据
筛选
dataframe转化(二)之 apply(),transform(),agg() 的用法和区别
transform用法pandas.Series.transform CallfunconselfproducingaSerieswithtransformedvalues.ProducedSerieswillhavesameaxislengthasself.Parametersfuncfunction,st...
代码星球
·
2021-02-22
dataframe
转化
apply
transform
agg
如何加速pandas的DataFrame
python的dataFrame确实好用,但是明显只能单核运算使用pandas,当您运行以下行时:# Standard applydf.apply(func)得到这个CPU使用率: 即使计算机有多个CPU,也只有一个完全专用于计算。最近受群友推荐开始找到这个加速器,真的牛叉!!...
代码星球
·
2021-02-22
如何
加速
pandas
DataFrame
pandas之dataframe踩坑指南(一)---apply(func)
importpandasaspddata=pd.read_csv(r"test数据.csv",engine="python",encoding="utf-8")defpprint(row):row["extra"]=1print(row)returnrowdata=data.appl...
代码星球
·
2021-02-22
pandas
dataframe
踩坑
指南
---apply
获取DataFrame列名的3种方法
df=pd.DataFrame({'a':range(10,20),'b':range(20,30)})df1.链表推倒式[columnforcolumnindf][a,b]2.通过columns属性columns属性返回Index,columns.values属性返回 numpy.ndarray,然后可以通...
代码星球
·
2021-02-22
获取
DataFrame
列名
3种
方法
Series拼接回DataFrame
从这样的表,如何计算一行汇总层拼接回去 ...
代码星球
·
2021-02-22
Series
拼接
DataFrame
Series和Dataframe分组时使用groupby函数的区别
importpandasaspddf=pd.DataFrame({'性别':['男','女','男','女','男','女','男','男'],'成绩':['优秀','优秀','及格','差','及格','及格','优秀','差'],'年龄':[15,14,15,12,13,14,15,16]})dfcount=df....
代码星球
·
2021-02-22
Series
Dataframe
分组
使用
groupby
pandas.DataFrame.where和mask 解读
没怎么用过df.where都是直接使用loc、apply等方法去解决。 可能是某些功能还没有超出loc和apply的适用范围。DataFrame.where(self,cond,other=nan,inplace=False,axis=None,level=None,errors='raise',try_ca...
代码星球
·
2021-02-22
pandas.DataFrame.where
mask
解读
pandas中DataFrame和Series的数据去重
在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUPBY就好。selectcustId,applyNofromtmp.online_service_startloangroupbycustId,applyNo 但是对于pandas的DataFr...
代码星球
·
2021-02-22
pandas
DataFrame
Series
数据
去重
dataframe转化(一)之python中的apply(),applymap(),map() 的用法和区别
平时在处理dfseries格式的时候并没有注意map和apply的差异 总感觉没啥却别。不过还是有区别的。下面总结一下: importpandasaspddf1=pd.DataFrame({"sales1":[-1,2,3],"sales2":[3,-5,7],}) ...
代码星球
·
2021-02-22
dataframe
转化
python
中的
apply
pd.dataframe和series以及np.narray的维度升降
1.第一步读入泰坦尼克号数据集importpandasaspddata=pd.read_csv(r".Narrativedata.csv",index_col=0)#index_col=0将第0列作为索引,不写则认为第0列为特征data.head() 2.通过df的loc的函数从df中...
代码星球
·
2021-02-22
pd.dataframe
series
以及
np.narray
维度
给DataFrame的列命名或重命名
1.读取文件的时候重命名names=new_col,可以在读取文件的时候,给出新列名。new_col=['new1','new2',...,'newn']pd.read_csv('data',names=new_col,header=0) 2.全部重命名columns=new_columns,新列名的长度必须...
代码星球
·
2021-02-22
DataFrame
命名
重命名
pandas的dataframe与spark的dataframe
...
代码星球
·
2021-02-22
dataframe
pandas
spark
首页
上一页
1
2
3
4
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他