#BM25

文本相似度 — TF-IDF和BM25算法

1,$TF-IDF$算法  $TF$是指归一化后的词频,$IDF$是指逆文档频率。给定一个文档集合$D$,有$d_1,d_2,d_3,......,d_ninD$。文档集合总共包含$m$个词(注:一般在计算$TF-IDF$时会去除如“的”这一类的停用词),有$w_1,w_2,w_3,.........