#TfidfVectorizer

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:x=['ilov...

关于yaha中文分词(将中文分词后,结合TfidfVectorizer变成向量)

https://github.com/jannson/yaha#-*-coding:utf-8-*-"""CreatedonWedAug1008:35:552016@author:Administrator"""#-*-coding=utf-8-*-importsys,re,codecsimportcProfilefr...