1.es的document数据格式和数据库的关系型数据格式的区别
1.1 es中document数据格式(ES主要是面向文档的搜索分析引擎)
1.1.1 应用系统的数据结构都是面向对象的,复杂的
1.1.2 对象数据存储到数据库中,只能拆解开来,变为扁平的多张表,每次查询的时候还得还原回对象格式,相当麻烦 1.1.3 ES是面向文档的,文档中存储的数据结构,与面向对象的数据结构是一样的,基于这种文档数据结构,es可以提供复杂的索引,全文检索,分析聚合等功能 1.1.4 es的document用json数据格式来表达1.2 下面介绍es数据格式与mysql这样数据库的区别
1.2.1 下面是mysql两张关联表Employee,EmployeeInfo,并给一个对象赋值
public class Employee {
private String email; private String firstName; private String lastName; private EmployeeInfo info; private Date joinDate; } private class EmployeeInfo { private String bio; // 性格 private Integer age; private String[] interests; // 兴趣爱好 }EmployeeInfo info = new EmployeeInfo();
info.setBio("curious and modest"); info.setAge(30); info.setInterests(new String[]{"bike", "climb"});Employee employee = new Employee();
employee.setEmail("zhangsan@sina.com"); employee.setFirstName("san"); employee.setLastName("zhang"); employee.setInfo(info); employee.setJoinDate(new Date());1.2.2 下面是elaticSearch 的赋值格式,就是相当于一个json
{
"email": "zhangsan@sina.com", "first_name": "san", "last_name": "zhang", "info": { "bio": "curious and modest", "age": 30, "interests": [ "bike", "climb" ] }, "join_date": "2017/01/01" }通过1.2.1和1.2.2我们就明白这两者上传数据的区别了。
2. 看下最简单的命令行
GET /_cat/health?v
epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1488006741 15:12:21 elasticsearch yellow 1 1 1 1 0 0 1 0 - 50.0%如何快速了解集群的健康状况?green、yellow、red?
green:每个索引的primary shard和replica shard都是active状态的
yellow:每个索引的primary shard都是active状态的,但是部分replica shard不是active状态,处于不可用的状态 red:不是所有索引的primary shard都是active状态的,部分索引有数据丢失了为什么现在会处于一个yellow状态?
我们现在就一个笔记本电脑,就启动了一个es进程,相当于就只有一个node。现在es中有一个index,就是kibana自己内置建立的index。由于默认的配置是给每个index分配5个primary shard和5个replica shard,而且primary shard和replica shard不能在同一台机器上(为了容错)。现在kibana自己建立的index是1个primary shard和1个replica shard。当前就一个node,所以只有1个primary shard被分配了和启动了,但是一个replica shard没有第二台机器去启动
3.创建索引
PUT /index/type/id
{ "json数据" }index:为索引(相当于mysql的数据库)
type:为类型(相当于mysql的表)
id:为document(相当于 mysql的行)
es会自动建立index和type,不需要提前创建,而且es默认会对document每个field都建立倒排索引,让其可以被搜索
PUT 创建 也可以覆盖
POST 修改
DELETE 删除
GET 查询
4. 查询
4.1 GET /ecommerce/product/_search
took:耗费了几毫秒
timed_out:是否超时,这里是没有
_shards:数据拆成了5个分片,所以对于搜索请求,会打到所有的primary shard(或者是它的某个replica shard也可以)
hits.total:查询结果的数量,3个document
hits.max_score:score的含义,就是document对于一个search的相关度的匹配分数,越相关,就越匹配,分数也高
hits.hits:包含了匹配搜索的document的详细数据
query string search的由来,因为search参数都是以http请求的query string来附带的
搜索商品名称中包含yagao的商品,而且按照售价降序排序:GET /ecommerce/product/_search?q=name:yagao&sort=price:desc
适用于临时的在命令行使用一些工具,比如curl,快速的发出请求,来检索想要的信息;但是如果查询请求很复杂,是很难去构建的
在生产环境中,几乎很少使用query string search
4.2 query DSL
DSL:Domain Specified Language,特定领域的语言
http request body:请求体,可以用json的格式来构建查询语法,比较方便,可以构建各种复杂的语法,比query string search肯定强大多了
查询所有的商品
GET /ecommerce/product/_search
{ "query": { "match_all": {} } }
GET /ecommerce/product/_search
{ "query" : { "match" : { "name" : "yagao" } }, "sort": [ { "price": "desc" } ] } GET /ecommerce/product/_search { "query": { "match_all": {} }, "from": 1, "size": 1 }GET /ecommerce/product/_search
{ "query": { "match_all": {} }, "_source": ["name", "price"] }
4.3 query filter
GET /ecommerce/product/_search
{ "query" : { "bool" : { "must" : { "match" : { "name" : "yagao" } }, "filter" : { "range" : { "price" : { "gt" : 25 } } } } } }4.3 full-text search(全文检索)
GET /ecommerce/product/_search
{ "query" : { "match" : { "producer" : "yagao producer" } } }4.4 phrase search(短语搜索)
跟全文检索相对应,相反,全文检索会将输入的搜索串拆解开来,去倒排索引里面去一一匹配,只要能匹配上任意一个拆解后的单词,就可以作为结果返回
phrase search,要求输入的搜索串,必须在指定的字段文本中,完全包含一模一样的,才可以算匹配,才能作为结果返回GET /ecommerce/product/_search
{ "query" : { "match_phrase" : { "producer" : "yagao producer" } } }