您当前的位置: 首页 > 

java持续实践

暂无认证

  • 2浏览

    0关注

    746博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

黑马十次方项目day04-08之ik分词器的使用

java持续实践 发布时间:2019-01-20 14:48:44 ,浏览量:2

文章目录
      • ik分词器的安装
      • 测试ik分词器
      • 自定义词条

ik分词器的安装

解压配套的elasticsearch的ik分词器 解压完成后将elasticsearch文件夹,重命名为ik文件夹 ik文件夹的内容如下 把ik文件夹,复制到elasticsearch的plugins文件夹下 接着重启elasticsearch的服务

测试ik分词器

IK提供了两个分词算法ik_smart 和 ik_max_word 其中 ik_smart 为最少切分(例如中国人,只会分为中国人,不会再细分了), ik_max_word为最细粒度划分(把一个词再往下切分,分的词汇多, 例如中国人,会被分解为中国人,中国,国人) 浏览器测试最少切分 http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是中国人 在浏览器测试最细粒度切分 http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=我是中国人

自定义词条

在ik文件夹下的config文件夹中,新建立一个custom.dic文件 文件中填写的内容如下 最后保存文件**,特别要注意的是要选择无BOM的 utf-8的编码,否则会自定义分词失败** 保存完自定义的分词后,打开IKAnalyzer.cfg.xml文件 在扩展词典中,填写custom.dic

之后重启elasticsearch的服务器 在浏览器的地址栏输入如下的内容 http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=传智播客 响应如下的数据,代表自定义分词成功. 如果自定义分词失败, 可以在custom.dic文件中, 在自定义的分词,前后加上空格. 或者检查文件的编码是否为无bom的utf8

关注
打赏
1658054974
查看更多评论
立即登录/注册

微信扫码登录

0.0389s