#pandas

pandas 统计

https://www.cnblogs.com/nxld/p/6058591.html...
代码星球 ·2021-02-23

PANDAS 数据合并与重塑

pandas作者WesMcKinney在【PYTHONFORDATAANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手来...
代码星球 ·2021-02-23

Pandas 合并数据集

在数据挖掘过程中,经常会有不同表格的数据需要进行合并操作。今天介绍通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。1.mergemerge函数通过一个或多个键来将数据集的行连接起来。该函数的主要应用场景是针对同一个主键存在两张包含不同特征的表,通过该主键的连接,将两张表进行合并...
代码星球 ·2021-02-23

pandas 样本打乱

importpandasaspddf=pd.read_excel("windowregulator01_0914新增样本.xlsx")df=df.sample(frac=1)#打乱样本...
代码星球 ·2021-02-23

pandas Series介绍

1.Series介绍Pandas模块的数据结构主要有两:1、Series;2、DataFrameseries是一个一维数组,是基于NumPy的ndarray结构。Pandas会默然用0到n-1来作为series的index,但也可以自己指定index(可以把index理解为dict里面的key)。2.Series创建p...
代码星球 ·2021-02-22

pandas DataFrame 数据筛选

一、使用【】1.单条件筛选最大逾期天数小于10due_days=10last_loan_df=last_loan_df[last_loan_df['max_due_days']<=due_days]2.多条件筛选或last_loan_df=last_loan_df[(last_loan_df['max_due_d...

pandas 数据类型研究(三)数据类型object与category

category数据类型官方文档是这样描述的:Categoricals是pandas的一种数据类型,对应着被统计的变量。  1.Categoricals是由固定的且有限数量的变量组成的。比如:性别、社会阶层、血型、国籍、观察时段、赞美程度等等。  2.与其它被统计的变量相比,categorical类型的数据可以具有特定...

如何加速pandas的DataFrame

python的dataFrame确实好用,但是明显只能单核运算使用pandas,当您运行以下行时:# Standard applydf.apply(func)得到这个CPU使用率:  即使计算机有多个CPU,也只有一个完全专用于计算。最近受群友推荐开始找到这个加速器,真的牛叉!!...

pandas窗口函数--rolling

  在HQL中我经常使用开窗函数,后来做mysql(5.7)的数据处理,只能使用order等分组方式替代开窗函数。而pandas中带有各种移动窗口,它都是以rolling打头的函数,后接具体的函数,来显示该移动窗口函数的功能。总共有3+1类。主要有如下类: 还有pandas.rolling...

pandas数据类型判断(三)数据判断

1)判断数值是否为空用pd.isna,pd.isnull,np.isnan2)判断字符串是否为空用pd.isna,pd.isnull;3)判断时间是否为空用pd.isna,pd.isnull,np.isnat参数:obj:标量或数组返回:布尔或布尔数组说明:1.NA值如None或np.nan,NaT将映射True值。'...
代码星球 ·2021-02-22

pandas数据类型(二)与numpy的str和object类型之间的区别

Numpy区分了str和object类型,其中dtype(‘S’)和dtype(‘O’)分别对应于str和object.然而,pandas缺乏这种区别str和object类型都对应dtype(‘O’)类型,即使强制类型为dtype(‘S’)也无济于事>>>importpandasaspd>>...

pandas 数据类型研究(一)数据转换

 当利用pandas进行数据处理的时候,经常会遇到数据类型的问题,当拿到数据的时候,首先需要确定拿到的是正确类型的数据,一般通过数据类型的转化,这篇文章就介绍pandas里面的数据类型(datatypes也就是常用的dtyps),以及pandas与numpy之间的数据对应关系。  data...

Pandas中空值的判断方法,包括数值型、字符串型、时间类型等

补坑。有的时候挖完了坑就忘了填。哈哈。这种写了开头,没写完或者没写的。博客界称这样博主为太监。下面没有了。哈哈  其实我有一篇文章分析过pandas中的null空值,np.nan,还有None等数据判断方式。见数据判断我们这里注意看下字符串数据类型,当然字符串数据类型在pandas是以object数...

pandas实现hive的lag和lead函数 以及 first_value和last_value函数

该函数的格式如下:第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)laglag(字段名,N,默认值)over(partitionby分组字段orderby排序字段排序方式)leadlead(字段名,N,默认值)over(par...

pandas之dataframe踩坑指南(一)---apply(func)

   importpandasaspddata=pd.read_csv(r"test数据.csv",engine="python",encoding="utf-8")defpprint(row):row["extra"]=1print(row)returnrowdata=data.appl...
首页上一页12345...下一页尾页