51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#分箱
特征工程之分箱--Best-KS分箱
KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值。(后面的模型评估里会重点讲解模型的KS值...
代码星球
·
2021-02-20
特征
工程
之分
--Best-KS
分箱
特征工程之分箱--卡方分箱
分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;列表内容离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大...
代码星球
·
2021-02-20
特征
工程
之分
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他