我们前面章节对分词的讲解全是基于英文文本的。本章,我们就来看看如何对中文短语进行分词。Elasticsearch中,最常用的中文分词器就是IK。
一、IK分词器
1.1 安装
首先,从GitHub上下载预编译好的IK包,比如,我的Elasticsearch版本是v7.6.0,我就下载7.6.0版本的IK:https://github.com/medcl/elasticsearch-analysis-ik/releases。
IK和Elasticsearch主要的版本对照如下表:
IKversion | ESversion |
---|---|
master | 7.x->master |
6.x | 6.x |
5.x | 5.x |
然后解压缩放置到YOUR_ES_ROOT/plugins/ik/
目录下,最后,重启Elasticsearch即可。
1.2 基本使用
IK分词器有两种analyzer: ik_max_word 、 ik_smart ,但是一般是选用 ik_max_word 。
- ik_max_word:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”等等,会穷尽各种可能的组合。
- ik_smart:只做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
我们可以看下用IK分词器的分词效果,先将改变指定字段的mapping:
PUT /my_index
{
"mappings": {
"properties": {
"text": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
然后看下分词效果:
GET /my_index/_analyze
{
"text": "美专家称疫情在美国还未达到顶峰",
"analyzer": "ik_max_word"
}
1.3 配置文件
IK的配置文件存在于YOUR_ES_ROOT/plugins/ik/config
目录下,我们可以看下这个目录下的各个文件的作用:
- main.dic: IK原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起;
- quantifier.dic: 放了一些单位相关的词;
- suffix.dic: 放了一些后缀;
- surname.dic: 中国的姓氏;
- stopword.dic: 英文停用词。
如果我们希望自定义词库,比如加入一些当下的流行词,就可以修改IKAnalyzer.cfg.xml
的ext_dict
,配置我们扩展的词库,然后重启ES就可以生效了。
二、热更新词库
上一节中,如果我们希望自定义词库,每次都必须修改配置文件然后重启Elasticsearch,这种做法只适合测试环境。如果在生产环境,我们希望热更新词库,比如基于MySQL中的热点数据来更新词库,那该怎么做呢?
目前有两种方案,业界一般采用第一种:
- 修改IK分词器源码,然后每隔一定时间,自动从MySQL中加载新的词库;
- 基于IK分词器原生支持的热更新方案:部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新。
修改IK的源码,网上有很多现有示例,我这边就不再赘述了。
三、总结
本章,我介绍了IK中文分词器的安装及基本使用,生产环境中,我们一般会修改IK的源码,使它支持热更新词库。
Java 面试宝典是大明哥全力打造的 Java 精品面试题,它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题,而是一套完整的 Java 知识体系,一套你 Java 知识点的扫盲贴。
它的内容包括:
- 大厂真题:Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
- 原创内容:Java 面试宝典内容全部都是大明哥原创,内容全面且通俗易懂,回答部分可以直接作为面试回答内容。
- 持续更新:一次购买,永久有效。大明哥会持续更新 3+ 年,累计更新 1000+,宝典会不断迭代更新,保证最新、最全面。
- 覆盖全面:本宝典累计更新 1000+,从 Java 入门到 Java 架构的高频面试题,实现 360° 全覆盖。
- 不止面试:内容包含面试题解析、内容详解、知识扩展,它不仅仅只是一份面试题,更是一套完整的 Java 知识体系。
- 宝典详情:https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
- 宝典总览:https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
- 宝典进展:https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw
目前 Java 面试宝典累计更新 400+ 道,总字数 42w+。大明哥还在持续更新中,下图是大明哥在 2024-12 月份的更新情况:
想了解详情的小伙伴,扫描下面二维码加大明哥微信【daming091】咨询
同时,大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ,回复【面试题】 即可免费领取。