#Datafram

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了DataFrameAPI来用类似pandas的接口进行大规模数据分析以及预处理,本文主要介绍如何使用PyODPS执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例,假设大表Coordinates1存储目标点经纬度坐标,共有M行数据,小表Coordi...

PyODPS DataFrame 的代码在哪里跑

在使用PyODPSDataFrame编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。假定我们要执行下面的代码:fromodpsimportODPS,optionsimportnum...

pandas DataFrame 数据筛选

一、使用【】1.单条件筛选最大逾期天数小于10due_days=10last_loan_df=last_loan_df[last_loan_df['max_due_days']<=due_days]2.多条件筛选或last_loan_df=last_loan_df[(last_loan_df['max_due_d...

dataframe转化(二)之 apply(),transform(),agg() 的用法和区别

transform用法pandas.Series.transform CallfunconselfproducingaSerieswithtransformedvalues.ProducedSerieswillhavesameaxislengthasself.Parametersfuncfunction,st...

如何加速pandas的DataFrame

python的dataFrame确实好用,但是明显只能单核运算使用pandas,当您运行以下行时:# Standard applydf.apply(func)得到这个CPU使用率:  即使计算机有多个CPU,也只有一个完全专用于计算。最近受群友推荐开始找到这个加速器,真的牛叉!!...

pandas之dataframe踩坑指南(一)---apply(func)

   importpandasaspddata=pd.read_csv(r"test数据.csv",engine="python",encoding="utf-8")defpprint(row):row["extra"]=1print(row)returnrowdata=data.appl...

获取DataFrame列名的3种方法

df=pd.DataFrame({'a':range(10,20),'b':range(20,30)})df1.链表推倒式[columnforcolumnindf][a,b]2.通过columns属性columns属性返回Index,columns.values属性返回 numpy.ndarray,然后可以通...

Series拼接回DataFrame

从这样的表,如何计算一行汇总层拼接回去         ...
代码星球 ·2021-02-22

Series和Dataframe分组时使用groupby函数的区别

importpandasaspddf=pd.DataFrame({'性别':['男','女','男','女','男','女','男','男'],'成绩':['优秀','优秀','及格','差','及格','及格','优秀','差'],'年龄':[15,14,15,12,13,14,15,16]})dfcount=df....

pandas.DataFrame.where和mask 解读

没怎么用过df.where都是直接使用loc、apply等方法去解决。 可能是某些功能还没有超出loc和apply的适用范围。DataFrame.where(self,cond,other=nan,inplace=False,axis=None,level=None,errors='raise',try_ca...

pandas中DataFrame和Series的数据去重

在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUPBY就好。selectcustId,applyNofromtmp.online_service_startloangroupbycustId,applyNo 但是对于pandas的DataFr...

dataframe转化(一)之python中的apply(),applymap(),map() 的用法和区别

 平时在处理dfseries格式的时候并没有注意map和apply的差异  总感觉没啥却别。不过还是有区别的。下面总结一下: importpandasaspddf1=pd.DataFrame({"sales1":[-1,2,3],"sales2":[3,-5,7],}) ...

pd.dataframe和series以及np.narray的维度升降

 1.第一步读入泰坦尼克号数据集importpandasaspddata=pd.read_csv(r".Narrativedata.csv",index_col=0)#index_col=0将第0列作为索引,不写则认为第0列为特征data.head()  2.通过df的loc的函数从df中...

给DataFrame的列命名或重命名

1.读取文件的时候重命名names=new_col,可以在读取文件的时候,给出新列名。new_col=['new1','new2',...,'newn']pd.read_csv('data',names=new_col,header=0) 2.全部重命名columns=new_columns,新列名的长度必须...
代码星球 ·2021-02-22
首页上一页1234下一页尾页