2023-08-08  阅读(1)
原文作者:Ressmix 原文地址:https://www.tpvlog.com/article/146

我们前面章节对分词的讲解全是基于英文文本的。本章,我们就来看看如何对中文短语进行分词。Elasticsearch中,最常用的中文分词器就是IK。

一、IK分词器

1.1 安装

首先,从GitHub上下载预编译好的IK包,比如,我的Elasticsearch版本是v7.6.0,我就下载7.6.0版本的IK:https://github.com/medcl/elasticsearch-analysis-ik/releases。

IK和Elasticsearch主要的版本对照如下表:

IKversion ESversion
master 7.x->master
6.x 6.x
5.x 5.x

然后解压缩放置到YOUR_ES_ROOT/plugins/ik/目录下,最后,重启Elasticsearch即可。

1.2 基本使用

IK分词器有两种analyzer: ik_max_wordik_smart ,但是一般是选用 ik_max_word

  • ik_max_word:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”等等,会穷尽各种可能的组合。
  • ik_smart:只做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

我们可以看下用IK分词器的分词效果,先将改变指定字段的mapping:

    PUT /my_index 
    {
      "mappings": {
          "properties": {
            "text": {
              "type": "text",
              "analyzer": "ik_max_word"
            }
          }
      }
    }

然后看下分词效果:

    GET /my_index/_analyze
    {
      "text": "美专家称疫情在美国还未达到顶峰",
      "analyzer": "ik_max_word"
    }

1.3 配置文件

IK的配置文件存在于YOUR_ES_ROOT/plugins/ik/config目录下,我们可以看下这个目录下的各个文件的作用:

  • main.dic: IK原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起;
  • quantifier.dic: 放了一些单位相关的词;
  • suffix.dic: 放了一些后缀;
  • surname.dic: 中国的姓氏;
  • stopword.dic: 英文停用词。

如果我们希望自定义词库,比如加入一些当下的流行词,就可以修改IKAnalyzer.cfg.xmlext_dict,配置我们扩展的词库,然后重启ES就可以生效了。

二、热更新词库

上一节中,如果我们希望自定义词库,每次都必须修改配置文件然后重启Elasticsearch,这种做法只适合测试环境。如果在生产环境,我们希望热更新词库,比如基于MySQL中的热点数据来更新词库,那该怎么做呢?

目前有两种方案,业界一般采用第一种:

  1. 修改IK分词器源码,然后每隔一定时间,自动从MySQL中加载新的词库;
  2. 基于IK分词器原生支持的热更新方案:部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新。

修改IK的源码,网上有很多现有示例,我这边就不再赘述了。

三、总结

本章,我介绍了IK中文分词器的安装及基本使用,生产环境中,我们一般会修改IK的源码,使它支持热更新词库。


Java 面试宝典是大明哥全力打造的 Java 精品面试题,它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题,而是一套完整的 Java 知识体系,一套你 Java 知识点的扫盲贴。

它的内容包括:

  • 大厂真题:Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
  • 原创内容:Java 面试宝典内容全部都是大明哥原创,内容全面且通俗易懂,回答部分可以直接作为面试回答内容。
  • 持续更新:一次购买,永久有效。大明哥会持续更新 3+ 年,累计更新 1000+,宝典会不断迭代更新,保证最新、最全面。
  • 覆盖全面:本宝典累计更新 1000+,从 Java 入门到 Java 架构的高频面试题,实现 360° 全覆盖。
  • 不止面试:内容包含面试题解析、内容详解、知识扩展,它不仅仅只是一份面试题,更是一套完整的 Java 知识体系。
  • 宝典详情:https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
  • 宝典总览:https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
  • 宝典进展:https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw

目前 Java 面试宝典累计更新 400+ 道,总字数 42w+。大明哥还在持续更新中,下图是大明哥在 2024-12 月份的更新情况:

想了解详情的小伙伴,扫描下面二维码加大明哥微信【daming091】咨询

同时,大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ,回复【面试题】 即可免费领取。

阅读全文