Pan主题的文章列表，还有Pan的技术要点_第3页

pandas DataFrame 数据筛选

一、使用【】1.单条件筛选最大逾期天数小于10due_days=10last_loan_df=last_loan_df[last_loan_df['max_due_days']<=due_days]2.多条件筛选或last_loan_df=last_loan_df[(last_loan_df['max_due_d...

代码星球 ·2021-02-22

kaggle比赛实践M5-baseline研读（五）for_Japanese_beginner(with WRMSSE in LGBM)

https://www.kaggle.com/girmdshinsei/for-japanese-beginner-with-wrmsse-in-lgbm...

代码星球 ·2021-02-22

pandas 数据类型研究（三）数据类型object与category

category数据类型官方文档是这样描述的：Categoricals是pandas的一种数据类型，对应着被统计的变量。　　1.Categoricals是由固定的且有限数量的变量组成的。比如：性别、社会阶层、血型、国籍、观察时段、赞美程度等等。　　2.与其它被统计的变量相比，categorical类型的数据可以具有特定...

代码星球 ·2021-02-22

如何加速pandas的DataFrame

python的dataFrame确实好用，但是明显只能单核运算使用pandas，当您运行以下行时：# Standard applydf.apply(func)得到这个CPU使用率：即使计算机有多个CPU，也只有一个完全专用于计算。最近受群友推荐开始找到这个加速器，真的牛叉！！...

代码星球 ·2021-02-22

pandas窗口函数--rolling

在HQL中我经常使用开窗函数，后来做mysql（5.7）的数据处理，只能使用order等分组方式替代开窗函数。而pandas中带有各种移动窗口，它都是以rolling打头的函数，后接具体的函数，来显示该移动窗口函数的功能。总共有3+1类。主要有如下类：还有pandas.rolling...

代码星球 ·2021-02-22

pandas数据类型判断（三）数据判断

1)判断数值是否为空用pd.isna,pd.isnull,np.isnan2)判断字符串是否为空用pd.isna,pd.isnull；3)判断时间是否为空用pd.isna,pd.isnull,np.isnat参数：obj：标量或数组返回：布尔或布尔数组说明：1.NA值如None或np.nan,NaT将映射True值。'...

代码星球 ·2021-02-22

pandas数据类型（二）与numpy的str和object类型之间的区别

Numpy区分了str和object类型，其中dtype(‘S’)和dtype(‘O’)分别对应于str和object.然而,pandas缺乏这种区别str和object类型都对应dtype(‘O’)类型，即使强制类型为dtype(‘S’)也无济于事>>>importpandasaspd>>...

代码星球 ·2021-02-22

pandas 数据类型研究（一）数据转换

当利用pandas进行数据处理的时候，经常会遇到数据类型的问题，当拿到数据的时候，首先需要确定拿到的是正确类型的数据，一般通过数据类型的转化，这篇文章就介绍pandas里面的数据类型（datatypes也就是常用的dtyps），以及pandas与numpy之间的数据对应关系。 data...

代码星球 ·2021-02-22

Pandas中空值的判断方法，包括数值型、字符串型、时间类型等

补坑。有的时候挖完了坑就忘了填。哈哈。这种写了开头，没写完或者没写的。博客界称这样博主为太监。下面没有了。哈哈其实我有一篇文章分析过pandas中的null空值，np.nan,还有None等数据判断方式。见数据判断我们这里注意看下字符串数据类型，当然字符串数据类型在pandas是以object数...

代码星球 ·2021-02-22

pandas实现hive的lag和lead函数以及 first_value和last_value函数

该函数的格式如下:第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）laglag(字段名,N，默认值)over(partitionby分组字段orderby排序字段排序方式)leadlead(字段名,N，默认值)over(par...

代码星球 ·2021-02-22

pandas之dataframe踩坑指南（一）---apply(func)

importpandasaspddata=pd.read_csv(r"test数据.csv",engine="python",encoding="utf-8")defpprint(row):row["extra"]=1print(row)returnrowdata=data.appl...

代码星球 ·2021-02-22

pandas处理json脱坑（二）--jsonError: Expecting ',' delimiter: line 1 column 2674

Expecting','delimiter:line1column2674 json_dict=json.loads(row[json_columns].replace("'","""))为什么要replace("'",""")见博客但是依旧报错我用trycatch的方法把...

代码星球 ·2021-02-22

pandas处理json脱坑（一）--JsonError: Expecting property name enclosed in double quotes

python执行json.loads（…）时遇到的错误json格式的文本中应该用双引号，而不是单引号，如： brief=json.loads(row["brief"].replace("'","""))把单引号替换成双引号即可。...

代码星球 ·2021-02-22

Pandas to_sql TypeError: sequence item 0: expected str instance, dict found

打印了一下数据格式，并未发现问题。如果说是字典实例引起的。我猜测也是extra字段引起的，因为extra字段是一个json字段。根据网上的提示要对这样的格式进行强转str. 其他发现：pd.to_sql操作还对我们的表进行了删除和重建（if_exis...

代码星球 ·2021-02-22

python panda读写内存溢出：MemoryError

pandas设计时应该是早就考虑到了这些可能存在的问题，所以在read功能中设计了块读取的功能，也就是不会一次性把所有的数据都放到内存中来，而是分块读到内存中，最后再将块合并到一起，形成一个完整的DataFrame。defread_sql_table(table_name,con,schema=...

代码星球 ·2021-02-22

pandas DataFrame 数据筛选

kaggle比赛实践M5-baseline研读（五）for_Japanese_beginner(with WRMSSE in LGBM)

pandas 数据类型研究（三）数据类型object与category

如何加速pandas的DataFrame

pandas窗口函数--rolling

pandas数据类型判断（三）数据判断

pandas数据类型（二）与numpy的str和object类型之间的区别

pandas 数据类型研究（一）数据转换

Pandas中空值的判断方法，包括数值型、字符串型、时间类型等

pandas实现hive的lag和lead函数 以及 first_value和last_value函数

pandas之dataframe踩坑指南（一）---apply(func)

pandas处理json脱坑（二）--jsonError: Expecting ',' delimiter: line 1 column 2674

pandas处理json脱坑（一）--JsonError: Expecting property name enclosed in double quotes

Pandas to_sql TypeError: sequence item 0: expected str instance, dict found

python panda读写内存溢出：MemoryError

pandas实现hive的lag和lead函数以及 first_value和last_value函数