盘古 + Lucene 实现 .NET 分词 + 全文检索-Stopword、字典配置

  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-盘古分词
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-全文检索
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-更新、删除全文文档
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-Stopword、字典配置

Stopword

默认情况下:“的”、“了”、“有”、“无”……这些高频词都会被当作词来检索、高亮,如何避免呢?

在 Dictionaries 中打开 Stopword.txt,将这些词追加进行,一行一个。

这里可以追加标点符号、字、词,多个字的词也是可以的,比如:好了。

追加之后,保存,不需要做其他操作,会即时生效(只是首次加载会慢一点)。

字典配置

使用 DictManage.exe 打开 Dictionaries 中的 Dict.dct 来维护分词。

下载盘古分词工具。

要说明两点:

  • 一是修改了分词,要保存。
  • 二是要重新用 IndexWriter 写入索引。
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-盘古分词
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-全文检索
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-更新、删除全文文档
  • 盘古 + Lucene 实现 .NET 分词 + 全文检索-Stopword、字典配置

你可能感兴趣的