文章目录
分词器
Analysis 和 Analyzer
- 分词器
- Analysis 和 Analyzer
- Analyzer 组成
- 内置分词器
- 内置分词器测试
- 创建索引设置分词
- 中文分词器 (IK分词器)
- 安装IK
- IK使用
- 扩展词、停用词配置
Analysis
: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词(Analyzer)。Analysis是通过Analyzer来实现的。
分词就是将文档通过Analyzer分成一个一个的Term(关键词查询),每一个Term都指向包含这个Term的文档
。
StandardAnalyzer标准分词器 (ES默认分词器)
- 中文进行单字分词, 英文按照单词分词
eg : 我是中国人 this is good man
标准分词后: 我 是 中 国 人 this is good man
分析器(analyzer)都由三种构件组成的:character filters
, tokenizers
, token filters
。
-
character filter
字符过滤器- 在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(hello --> hello),& --> and(I&you --> I and you)
-
tokenizers
分词器- 英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词。
-
Token filters
Token过滤器- 将切分的单词进行加工。大小写转换(例将“Quick”转为小写),去掉停用词(例如停用词像“a”、“and”、“the”等等),加入同义词(例如同义词像“jump”和“leap”)。
注意:
- 三者顺序: Character Filters—>Tokenizer—>Token Filter
- 三者个数:Character Filters(0个或多个) + Tokenizer + Token Filters(0个或多个)
- Standard Analyzer - 默认分词器,英文按单词词切分,并小写处理; 对中文进行单字分词
- Simple Analyzer - 按照单词切分(符号被过滤), 小写处理
- 标准分词器
- 特点: 按照单词分词 英文统一转为小写 过滤标点符号 中文单字分词
POST /_analyze
{
"analyzer": "standard",
"text": "this is a , good Man 中华人民共和国"
}
- Simple 分词器
- 特点: 英文按照单词分词 英文统一转为小写 去掉符号 中文按照空格进行分词
POST /_analyze
{
"analyzer": "simple",
"text": "this is a , good Man 中华人民共和国"
}
创建索引设置分词
PUT /索引名
{
"settings": {},
"mappings": {
"properties": {
"title":{
"type": "text",
"analyzer": "standard" //显示指定分词器
}
}
}
}
中文分词器 (IK分词器)
在ES中支持中文分词器非常多 如 smartCN、IK 等,推荐的就是 IK分词器
。
开源分词器 Ik 的github:https://github.com/medcl/elasticsearch-analysis-ik
注意
IK分词器的版本要你安装ES的版本一致注意
Docker 容器运行 ES 安装插件目录为 /usr/share/elasticsearch/plugins
IK有两种颗粒度的拆分:
-
ik_smart
: 会做最粗粒度的拆分 -
ik_max_word
: 会将文本做最细粒度的拆分
POST /_analyze
{
"analyzer": "ik_smart",
"text": "中华人民共和国国歌"
}
POST /_analyze
{
"analyzer": "ik_max_word",
"text": "中华人民"
}
IK支持自定义扩展词典
和停用词典
扩展词典
就是有些词并不是关键词,但是也希望被ES用来作为检索的关键词,可以将这些词加入扩展词典。停用词典
就是有些词是关键词,但是出于业务场景不想使用这些关键词被检索到,可以将这些词放入停用词典。
定义扩展词典和停用词典可以修改IK分词器中config
目录中IKAnalyzer.cfg.xml
这个文件。
1. 修改vim IKAnalyzer.cfg.xml
IK Analyzer 扩展配置
ext_dict.dic
ext_stopword.dic
2. 在ik分词器目录下config目录中创建ext_dict.dic文件 编码一定要为UTF-8才能生效
vim ext_dict.dic 加入扩展词即可
3. 在ik分词器目录下config目录中创建ext_stopword.dic文件
vim ext_stopword.dic 加入停用词即可
4.重启es生效
注意:
词典的编码必须为UTF-8,否则无法生效!