结巴分词的源码:jieba中文分词
在一個检索系统中,使用了结巴分词来进行分词检索,感觉很方便。
首先,把结巴分词的词库写入到数据库中,用来判断检索的关键字是否为新词,
如果新词的话,就直接like整篇文章,再保存检索关键字到词库和分词表中;
不是的话,就在分词表中进行搜索,这样检索速度就增加了,也不会出现检索不到词的问题。
接在修改结巴分词的源码
修改加载词库的方法:WordDictionary.cs中LoadDict的方法
|
|
增加添加新词的方法
|
|
增加接口调用的方法:在JiebaSegmenter.cs中增加以下两个方法,用于判断分词是否存在并添加新词
|
|