盘古分词是一款优秀的分词组件,项目地址:http://pangusegment.codeplex.com/。
其 downloads 页面详细列出了源代码下载、编译下载、说明文档下载。注意,其右边还有个“V2.001 版本字典”下载,这个是需要的。本地下载盘古。
盘古提供的说明文档说得比较清楚,所以本文只是说些最基础的使用方法。
一、拖入几个文件
在 Visual Studio 中,将 PanGu.dll、PanGu.HighLight.dll、PanGu.xml、Dictionaries 拖入。
二、修改路径
默认配置的 Dictionaries 路径是在执行文件的上一级目录,可是我们在 Visual Studio 中是拖到同级目录的,所以需要修改。在 PanGu.xml 中修改 DictionaryPath 节的值为 Dictionaries 即可。
三、复制字典到输出目录
可手工复制,也可在 Dictionaries 中的文件上选择属性,在“复制到输出目录”中配置为复制。
四、引用
在项目中引用这几个 dll。
五、分词代码
我们使用最简单的代码,复杂的代码请见盘古分词的文档。
六、高亮代码