Elasticsearch之基本API操作
索引操作

创建索引:使用PUT请求,http://localhost:9200/ + 索引名称

创建索引的映射:PUT, http://localhost:9200/+索引名称+/_mapping

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
{
"properties": {
"name":{
"type": "text",
"index": true
},
"sex":{
"type": "keyword",
"index": true
},
"tel":{
"type": "keyword",
"index": false
}
}
}
// mapping映射属性
type:字段数据类型,常见的简单类型有:
字符串:text(可分词的文本)、keyword(精确值,如:品牌、国家、IP地址)
数值:long、integer、shortbytedoublefloat
布尔:boolean
日期:date
对象:object
index:是否创建索引,默认是true
analyzer:分词器,使用何种分词器
properties:该字段的子字段
ES中支持的两种地理坐标数据类型:
geo_point:由维度(latitude)和经度(longitude)确定的一个点。如:"32.8752345,120.2981576"
geo_shape:由多个geo_point组成的复杂几何图形。如一条直线。

查询映射:GET, http://localhost:9200/+索引名称+/_mapping

删除索引:使用DELETE请求,http://localhost:9200/ + 索引名称

获取索引:使用GET请求,http://localhost:9200/ + 索引名称

获取所有索引:使用GET请求,http://localhost:9200/_cat/indices?v

索引映射创建后不允许修改,但允许添加新字段的索引映射

数据操作

上传数据:使用POST请求,http://localhost:9200/ + 索引名称 + /_doc (+/3 指定数据的id,不加则使用默认生成的id),此处需要注意:如果增加数据时明确数据主键,那么请求方式也可以为 PUT

删除数据:使用delete请求,http://localhost:9200/+ 索引名称 +/_doc/+ 数据的id

获取单条数据:使用GET请求,http://localhost:9200/+ 索引名称 +/_doc/+ 数据的id

获取索引下的所有数据:使用GET请求,http://localhost:9200/+ 索引名称 +/_search

修改数据:若要修改所有数据,跟上传数据一样,会自动覆盖之前的数据;若只修改部分数据,使用POST请求,http://localhost:9200/ + 索引名称 + /_update/+ id 文件格式为:

1
2
3
4
5
6
{
"doc": {
"键名":"值",
"键名":"值"
}
}

带参查询:URL带参,GET请求,http://localhost:9200/+索引名称+/_search/q=键名:值

请求体带参,GET请求,http://localhost:9200/+索引名称+/_search,附带JSON请求体:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
查找符合条件的数据:
{
"query":{
"match":{
"title":"一测"
}
}
}
全查:
{
"query":{
"match_all":{}
}
}
查询指定字段:
{
"query":{
"match_all":{}
},
"_source":["键名"]
}
分页查询:
{
"query":{
"match_all":{}
},
"from":0,
"size":2
}
排序查询:
{
"query":{
"match_all":{}
},
"sort":{
"键名":{
"order":"desc"//降序(asc升序)
}
}
}
多条件查询:
{
"query":{
"bool":{
"must":[{
"match":{
"title":"一"
}
},{
"match":{
"id":9
}
}]
}
}
}
范围查询:
{
"query":{
"bool":{
"should":[{
"match":{
"content":"它"
}
},{
"match":{
"title":"一"
}
}],
"filter":{
"range":{
"id":{
"gt":20//大于
}
}
}
}
}
}
完全匹配:
{
"query":{
"match_phrase":{
"title" : "一"
}
}
}
高亮查询:
{
"query":{
"match_phrase":{
"title" : "一"
}
},
"highlight":{
"fields":{
"title":{}//<----高亮这字段
}
}
}
聚合查询:
{
"aggs":{//聚合操作
"price_group":{//名称,随意起名
"terms":{//分组
"field":"price"//分组字段
}
}
},
"size":0//不附带原始结果
}
对某一字段求平均值:
{
"aggs":{
"price_avg":{//名称,随意起名
"avg":{//求平均
"field":"price"
}
}
},
"size":0
}

elasticsearch中的相关性打分算法

  • TF-IDF:在elasticsearch5.0之前使用,会随着词频增加而越来越大
  • BM25:在elasticsearch5.0之后使用,会随着词频增加而增大,但增长曲线会趋于水平

Function Score Query

使用Function Score Query可以修改文档的相关性算分(query score),根据新得到的算分排序。

Function Score Query定义的三要素是什么?

  • 过滤条件:哪些文档要加分
  • 算分函数:如何计算function score
  • 加权方式:function score与query score如何运算

复合查询Boolean Query

布尔查询是一个或多个查询子句的组合,子查询的组合方式有:

  • must:必须匹配每个子查询,类似 与
  • should:选择性匹配子查询,类似 或
  • must_not:必须不匹配,不参与算分,类似 非
  • filter:必须匹配,不参与算分

自定义分词器

elasticsearch中分词器(analyzer)的组成包含三部分:

  • character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
  • tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik_smart
  • tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

为了避免搜索时搜到同音字,应在创建索引时使用拼音分词器,但搜索时不应使用拼音分词器。