#onehot

特殊变量的处理(一)onehot&dummy

表述类目的变量通常,通常没有次序概念,且取值范围有限。例如性别行业信用卡类型。有些模型可以直接读类别变量(例如决策树)。有些模型不能识别类别变量(例如回归模型,神经网络,有距离的度量模型(svn,knn))。当类别变量无法放入模型的时候,需要做编码处理即以数值的形式替代原有的值:onehot编码dummy浓度编码WOE...