本章,我们来讲下全文检索(Full Text Query)中的多字段搜索。和上一章term filter不一样的是:全文检索不是搜索exact value,而是对检索关键字进行分词后,实现倒排索引检索。多字段搜索,说白了,就是希望在多个不同的field中检索关键字。
一、案例实战
1.1 数据准备
我们假设已经录入了以下4条文章数据:
{
"articleID" : "XHDK-A-1293-#fJ3",
"userID" : 1,
"hidden" : false,
"postDate" : "2017-01-01",
"tag" : [
"java",
"hadoop"
],
"view_cnt" : 30,
"title" : "this is java and elasticsearch blog"
},
{
"articleID" : "KDKE-B-9947-#kL5",
"userID" : 1,
"hidden" : false,
"postDate" : "2017-01-02",
"tag" : [
"java"
],
"view_cnt" : 50,
"title" : "this is java blog"
},
{
"articleID" : "JODL-X-1937-#pV7",
"userID" : 2,
"hidden" : false,
"postDate" : "2017-01-01",
"tag" : [
"hadoop"
],
"view_cnt" : 100,
"title" : "this is elasticsearch blog"
},
{
"articleID" : "QQPX-R-3956-#aD8",
"userID" : 2,
"hidden" : true,
"postDate" : "2017-01-02",
"tag" : [
"java",
"elasticsearch"
],
"view_cnt" : 80,
"title" : "this is java, elasticsearch, hadoop blog"
}
1.2 full text query示例
我们先来看下全文检索的基本使用方式:
# 请求:搜索title中包含关键字“java elasticsearch”的记录
GET /forum/_search
{
"query": {
"match": {
"title": "java elasticsearch"
}
}
}
全文检索时,会对搜索关键字进行拆分,上述"title"字段默认就是text类型,所以最终会以倒排索引的方式查询,只有记录中的“title”包含了“java”或“elasticsearch”,都会被检索出来。
我们也可以用bool组合多个搜索条件:
GET /forum/_search
{
"query": {
"bool": {
"must": { "match": { "title": "java" }},
"must_not": { "match": { "title": "spark" }},
"should": [
{ "match": { "title": "hadoop" }},
{ "match": { "title": "elasticsearch" }}
]
}
}
minimum_should_match
如果我们希望指定的关键字中,必须至少匹配其中的多少个关键字,才能作为结果返回,可以利用minimum_should_match
参数:
GET /forum/article/_search
{
"query": {
"match": {
"title": {
"query": "java elasticsearch spark hadoop",
"minimum_should_match": "75%"
}
}
}
}
上述查询到的结果中,至少会包含“java“、“elasticsearch“、“spark“、“hadoop”中的三个。
boost权重
我们可以通过boost
进行权重控制,也就是对于检索关键字,我们希望拆分后的某些词被优先检索。Elasticsearch进行相关度分数计算时,权重越大,相应的relevance score会越高,也就会优先被返回。默认情况下,搜索条件的权重都是1。
举个例子,假设我们希望检索出title包含hadoop或elasticsearch的记录,但是希望hadoop优先搜索出来,那么可以设置hadoop的权重更大些:
GET /forum/_search
{
"query": {
"bool": {
"should": [
{
"match": {
"title": {
"query": "hadoop",
"boost": 5
}
}
},
{
"match": {
"title": {
"query": "elasticsearch",
"boost": 2
}
}
}
]
}
}
}
注意:如果一个index有多个shard的话,搜索结果可能不准确。因为对于一个搜索请求,coordinate node可能会将其转发给任意一个shard。Elasticsearch在计算相关度分数时,采用了TF/IDF算法,该算法需要知道关键字在所有document中出现的次数,而每个shard只包含了部分document,TF/IDF算法计算时只采用了当前shard中的所有document数,所以对于不同shard计算出的相关度分数可能都是不同的。
1.3 match query底层原理
当我们使用match query进行检索时,Elasticsearch底层会转换成term形式。比如针对下面这种检索:
GET /forum/_search
{
"query": {
"match": {
"title": {
"query": "java elasticsearch",
"operator": "and"
}
}
}
}
Elasticsearch会将其转换成如下term形式:
{
"bool": {
"should": [
{ "term": { "title": "java" }},
{ "term": { "title": "elasticsearch" }}
]
}
}
二、best_fields策略
所谓best_fields策略,就是对多个filed进行搜索匹配时,挑选某个field匹配度最高的那个分数,同时在多个query最高分相同的情况下,在一定程度上考虑其他query的分数。简单来说,就是对多个field进行搜索时,就想搜索到某一个field包含更多关键字的数据。
2.1 multi-field搜索
语言描述实在太绕,我们通过一个例子来理解下,假设有五条doc记录:
# 1
{ "doc" : {"title" : "this is java and elasticsearch blog","content" : "i like to write best elasticsearch article"} }
# 2
{ "doc" : {"title" : "this is java blog","content" : "i think java is the best programming language"} }
# 3
{ "doc" : {"title" : "this is elasticsearch blog","content" : "i am only an elasticsearch beginner"} }
# 4
{ "doc" : {"title" : "this is java, elasticsearch, hadoop blog","content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
# 5
{ "doc" : {"title" : "this is spark blog","content" : "spark is best big data solution based on scala ,an programming language similar to java"} }
我们希望搜索title或content中包含“java”或“solution”关键字的帖子,这其实就是典型的multi-field搜索,我们一般会像下面这样构建请求:
# should相当于SQL语法中的OR
GET /forum/_search
{
"query": {
"bool": {
"should": [
{ "match": { "title": "java solution" }},
{ "match": { "content": "java solution" }}
]
}
}
}
如果按照正常的思维,匹配度最高的应该是doc5,因为只有它的content字段既包含“java”又包含“solution”。但事实上,doc5的相关度分数(relevance score)并不是最高的,因为默认情况下,对于这种multi-field搜索,Elasticsearch采用的是 most_fields策略 ,其算法大致是这样的:
- 计算每个query的分数,然后求和。对于上述搜索,就是“should”中的两个field检索条件,比如doc4计算的结果分别是1.1和1.2,相加为2.3;
- 计算matched query的数量,比如对于doc4,两个field都能匹配到,数量就是2;
- sum(每个query的分数)x count(matched query) / count(总query数量) 作为最终相关度分数。
对于doc4,上述算法的计算结果就是:(1.1+1.2) x 2/2=2.3;而对于doc5,title字段是匹配不到结果的,所以matched query=1,doc5的最终分数可能是(0+2.3) x 1/2=1.15,所以检索结果排在了doc4后面。
2.2 dis_max
我们希望的搜索结果应该是:某一个field匹配到了尽可能多的关键词,其分数更高;而不是尽可能多的field匹配到了少数的关键词,却排在了前面。
Elasticsearch提供了dis_max
语法,可以直接取多个query中,分数最高的那一个query的分数,比如像下面这样构建请求,doc5的相关度分数就会上去:
GET /forum/_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "java solution" }},
{ "match": { "content": "java solution" }}
]
}
}
}
比如对于上述的doc4,两个field检索的最终分数分别为1.1和1.2,那就取最大值1.2:
{ "match": { "title": "java solution" }} -> 1.1
{ "match": { "content": "java solution" }} -> 1.2
对于doc5,针对“title”的检索没有匹配结果,分数为0,但“content”的分数为2.3,所以取最大值2.3:
{ "match": { "title": "java solution" }} -> 0
{ "match": { "content": "java solution" }} -> 2.3
2.3 tie_breaker
dis_max
只取多个query中,分数最高的那一个query的分数,而完全不考虑其它query的分数。但有时这并不能满足我们的需求,举个例子,我们希望检索title字段包含“java solution”或"content"字段包含“java solution”的帖子,最终满足条件的每个doc的匹配结果如下:
- doc1,title中包含“java“,content不包含“java“、“solution“任何一个关键词;
- doc2,title中不包含任何一个关键词,content中包含“solution”;
- doc3,title中包含“java“,content中包含“solution“。
最终搜索结果是,doc1和doc2排在了doc3的前面,而不是我们期望的doc3排在最前面。此时我们可以利用tie_breaker
参数将其他query的分数也考虑进去:
GET /forum/_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "java solution" }},
{ "match": { "content": "java solution" }}
],
"tie_breaker": 0.3
}
}
}
`tie_breaker
的值,在0-1之间,其意义在于:将其他query的分数,乘以tie_breaker
,然后再与最高分数的那个query进行计算,得到最终分数。
2.4 multi_match搜索
上面我们讲的dis_max
和tie_breaker
其实就是bese_fields策略的核心实现原理了。Elasticsearch还提供了一种multi_match搜索,来简化实现bese_fields策略:
GET /forum/_search
{
"query": {
"multi_match": {
"query": "java solution",
"type": "best_fields",
"fields": [ "title", "content" ],
"tie_breaker": 0.3,
"minimum_should_match": "50%"
}
}
}
如果要用dis_max
和tie_breaker
和来实现同样的效果,则是下面这样,可以看到multi_match
确实简化了编码:
GET /forum/_search
{
"query": {
"dis_max": {
"queries": [
{
"match": {
"title": {
"query": "java solution",
"minimum_should_match": "50%"
}
}
},
{
"match": {
"body": {
"query": "java solution",
"minimum_should_match": "50%"
}
}
}
],
"tie_breaker": 0.3
}
}
}
2.5 优缺点
best_fields策略是最常用,也是最符合人类思维的搜索策略。Google、Baidu之类的搜索引擎,默认就是用的这种策略。
优点: 通过best_fields策略,以及综合考虑其他field,还有minimum_should_match
支持,可以尽可能精准地将匹配的结果推送到最前面。
缺点: 除了那些精准匹配的结果,其他差不多大的结果,排序结果不是太均匀,没有什么区分度了。
三、most_fields策略
most_fields策略,也是Elasticsearch进行multi-field搜索时的默认策略,其实就是综合多个field一起进行搜索,尽可能多地让所有query参与到总分的计算中,结果不一定精准。
比如,某个document的一个field虽然包含更多的关键字,但是因为其他document有更多field匹配到了,所以其它的doc会排在前面。
我们可以通过以下方式显式使用most_fields策略:
GET /forum/_search
{
"query": {
"multi_match": {
"query": "java solution",
"type": "most_fields",
"fields": [ "title", "content" ]
}
}
}
3.1 优缺点
优点: 将尽可能匹配更多field的结果推送到最前面,整个排序结果是比较均匀的。
缺点: 可能那些精准匹配的结果,无法推送到最前面。
四、cross-fields策略
cross-fields搜索,就是跨多个field去搜索一个标识。比如姓名字段可以散落在多个field中,first_name和last_name,地址字段可以散落在country、province、city中,那么搜索人名或者地址,就是cross-fields搜索。
要进行cross-fields搜索,我们可能会立马想到使用上面讲的 most_fields策略 ,因为multi_fields会考虑多个field匹配的分数,而cross-fields搜索本身刚好就是多个field检索的问题。
我们通过示例来看下cross-fields搜索,假设有以下用户信息:
# 1
{ "doc" : {"author_first_name" : "Peter", "author_last_name" : "Smith"} }
# 2
{ "doc" : {"author_first_name" : "Smith", "author_last_name" : "Williams"} }
# 3
{ "doc" : {"author_first_name" : "Jack", "author_last_name" : "Ma"} }
# 4
{ "doc" : {"author_first_name" : "Robbin", "author_last_name" : "Li"} }
# 5
{ "doc" : {"author_first_name" : "Tonny", "author_last_name" : "Peter Smith"} }
我们希望检索姓名中包含“Peter Smith”的用户信息,一般会像下面这样构造请求:
GET /forum/_search
{
"query": {
"multi_match": {
"query": "Peter Smith",
"type": "most_fields",
"fields": [ "author_first_name", "author_last_name" ]
}
}
}
检索出的结果包含:doc1、doc2、doc5,我们希望的结果应该是doc5排在最前面,然后是doc1,最后才是doc2,即doc5>doc1>doc2, 但事实上,doc5可能会排在最后 。之所以会出现这种情况,跟TF/IDF算法有关,我这边不作赘述,后面会讲TF/IDF算法原理。
所以,如果我们需要进行cross-fields搜索,应该直接使用multi_match提供的 cross-fields策略 :
GET /forum/_search
{
"query": {
"multi_match": {
"query": "Peter Smith",
"type": "cross_fields",
"operator": "and",
"fields": ["author_first_name", "author_last_name"]
}
}
}
使用cross-fields策略进行多字段检索时,会要求关键字拆分后的每个term必须出现在被检索的字段中。比如上面我们检索“Peter Smith”时,会拆成“Peter”和“Smith”两个term,那就要求:
- Peter必须在author_first_name或author_last_name中出现;
- Smith必须在author_first_name或author_last_name中出现。
五、总结
全文检索时,如果需要针对多个field进行检索,我们一般会使用match query或multi_match语法。默认情况下,Elasticsearch进行这类多字段检索的策略是most_fields。读者要理解most_fields策略和best_fields策略的内容及其优缺点,根据自己的实际需求选择合适的策略。
Java 面试宝典是大明哥全力打造的 Java 精品面试题,它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题,而是一套完整的 Java 知识体系,一套你 Java 知识点的扫盲贴。
它的内容包括:
- 大厂真题:Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
- 原创内容:Java 面试宝典内容全部都是大明哥原创,内容全面且通俗易懂,回答部分可以直接作为面试回答内容。
- 持续更新:一次购买,永久有效。大明哥会持续更新 3+ 年,累计更新 1000+,宝典会不断迭代更新,保证最新、最全面。
- 覆盖全面:本宝典累计更新 1000+,从 Java 入门到 Java 架构的高频面试题,实现 360° 全覆盖。
- 不止面试:内容包含面试题解析、内容详解、知识扩展,它不仅仅只是一份面试题,更是一套完整的 Java 知识体系。
- 宝典详情:https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
- 宝典总览:https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
- 宝典进展:https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw
目前 Java 面试宝典累计更新 400+ 道,总字数 42w+。大明哥还在持续更新中,下图是大明哥在 2024-12 月份的更新情况:
想了解详情的小伙伴,扫描下面二维码加大明哥微信【daming091】咨询
同时,大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ,回复【面试题】 即可免费领取。