Datafram主题的文章列表，还有Datafram的技术要点_第1页

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了DataFrameAPI来用类似pandas的接口进行大规模数据分析以及预处理，本文主要介绍如何使用PyODPS执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例，假设大表Coordinates1存储目标点经纬度坐标，共有M行数据，小表Coordi...

代码星球 ·2021-02-23

PyODPS DataFrame 的代码在哪里跑

在使用PyODPSDataFrame编写数据应用时，尽管编写的是同一个脚本文件，但其中的代码会在不同位置执行，这可能导致一些无法预期的问题，本文介绍当出现相关问题时，如何确定代码在何处执行，以及提供部分场景下解决问题的方法。假定我们要执行下面的代码：fromodpsimportODPS,optionsimportnum...

代码星球 ·2021-02-23

pandas DataFrame 数据筛选

一、使用【】1.单条件筛选最大逾期天数小于10due_days=10last_loan_df=last_loan_df[last_loan_df['max_due_days']<=due_days]2.多条件筛选或last_loan_df=last_loan_df[(last_loan_df['max_due_d...

代码星球 ·2021-02-22

dataframe转化（二）之 apply(),transform(),agg() 的用法和区别

transform用法pandas.Series.transform CallfunconselfproducingaSerieswithtransformedvalues.ProducedSerieswillhavesameaxislengthasself.Parametersfuncfunction,st...

代码星球 ·2021-02-22

如何加速pandas的DataFrame

python的dataFrame确实好用，但是明显只能单核运算使用pandas，当您运行以下行时：# Standard applydf.apply(func)得到这个CPU使用率：即使计算机有多个CPU，也只有一个完全专用于计算。最近受群友推荐开始找到这个加速器，真的牛叉！！...

代码星球 ·2021-02-22

pandas之dataframe踩坑指南（一）---apply(func)

importpandasaspddata=pd.read_csv(r"test数据.csv",engine="python",encoding="utf-8")defpprint(row):row["extra"]=1print(row)returnrowdata=data.appl...

代码星球 ·2021-02-22

获取DataFrame列名的3种方法

df=pd.DataFrame({'a':range(10,20),'b':range(20,30)})df1.链表推倒式[columnforcolumnindf][a,b]2.通过columns属性columns属性返回Index，columns.values属性返回 numpy.ndarray，然后可以通...

代码星球 ·2021-02-22

Series拼接回DataFrame

从这样的表，如何计算一行汇总层拼接回去 ...

代码星球 ·2021-02-22

Series和Dataframe分组时使用groupby函数的区别

importpandasaspddf=pd.DataFrame({'性别':['男','女','男','女','男','女','男','男'],'成绩':['优秀','优秀','及格','差','及格','及格','优秀','差'],'年龄':[15,14,15,12,13,14,15,16]})dfcount=df....

代码星球 ·2021-02-22

pandas.DataFrame.where和mask 解读

没怎么用过df.where都是直接使用loc、apply等方法去解决。可能是某些功能还没有超出loc和apply的适用范围。DataFrame.where(self,cond,other=nan,inplace=False,axis=None,level=None,errors='raise',try_ca...

代码星球 ·2021-02-22

pandas中DataFrame和Series的数据去重

在SQL语言中去重是一件相当简单的事情，面对一个表（也可以称之为DataFrame）我们对数据进行去重只需要GROUPBY就好。selectcustId,applyNofromtmp.online_service_startloangroupbycustId,applyNo 但是对于pandas的DataFr...

代码星球 ·2021-02-22

dataframe转化（一）之python中的apply(),applymap(),map() 的用法和区别

平时在处理dfseries格式的时候并没有注意map和apply的差异总感觉没啥却别。不过还是有区别的。下面总结一下： importpandasaspddf1=pd.DataFrame({"sales1":[-1,2,3],"sales2":[3,-5,7],}) ...

代码星球 ·2021-02-22

pd.dataframe和series以及np.narray的维度升降

1.第一步读入泰坦尼克号数据集importpandasaspddata=pd.read_csv(r".Narrativedata.csv",index_col=0)#index_col=0将第0列作为索引，不写则认为第0列为特征data.head() 2.通过df的loc的函数从df中...

代码星球 ·2021-02-22

给DataFrame的列命名或重命名

1.读取文件的时候重命名names=new_col，可以在读取文件的时候，给出新列名。new_col=['new1','new2',...,'newn']pd.read_csv('data',names=new_col,header=0) 2.全部重命名columns=new_columns，新列名的长度必须...

代码星球 ·2021-02-22

pandas的dataframe与spark的dataframe

...

代码星球 ·2021-02-22