- ik分词器的安装
- 测试ik分词器
- 自定义词条
解压配套的elasticsearch的ik分词器 解压完成后将elasticsearch文件夹,重命名为ik文件夹
ik文件夹的内容如下
把ik文件夹,复制到elasticsearch的plugins文件夹下
接着重启elasticsearch的服务
IK提供了两个分词算法ik_smart 和 ik_max_word 其中 ik_smart 为最少切分(例如中国人,只会分为中国人,不会再细分了), ik_max_word为最细粒度划分(把一个词再往下切分,分的词汇多, 例如中国人,会被分解为中国人,中国,国人) 浏览器测试最少切分 http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是中国人
在浏览器测试最细粒度切分
http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=我是中国人
在ik文件夹下的config文件夹中,新建立一个custom.dic文件 文件中填写的内容如下
最后保存文件**,特别要注意的是要选择无BOM的 utf-8的编码,否则会自定义分词失败**
保存完自定义的分词后,打开IKAnalyzer.cfg.xml文件
在扩展词典中,填写custom.dic
之后重启elasticsearch的服务器
在浏览器的地址栏输入如下的内容
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=传智播客
响应如下的数据,代表自定义分词成功. 如果自定义分词失败, 可以在custom.dic文件中, 在自定义的分词,前后加上空格. 或者检查文件的编码是否为无bom的utf8