91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

為什么ElasticSearch復雜條件查詢比MySQL好?

數(shù)據(jù)分析與開發(fā) ? 來源:程序員歷小冰 ? 作者:程序員歷小冰 ? 2021-04-09 11:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

熟悉 MySQL 的同學一定都知道,MySQL 對于復雜條件查詢的支持并不好。MySQL 最多使用一個條件涉及的索引來過濾,然后剩余的條件只能在遍歷行過程中進行內(nèi)存過濾。

上述這種處理復雜條件查詢的方式因為只能通過一個索引進行過濾,所以需要進行大量的 I/O 操作來讀取行數(shù)據(jù),并消耗 CPU 進行內(nèi)存過濾,導致查詢性能的下降。

而 ElasticSearch 因其特性,十分適合進行復雜條件查詢,是業(yè)界主流的復雜條件查詢場景解決方案,廣泛應用于訂單和日志查詢等場景。

下面我們就一起來看一下,為什么 ElasticSearch 適合進行復雜條件查詢。

ElasticSearch 簡介

Elasticsearch 是開源的實時分布式搜索分析引擎,內(nèi)部使用 Lucene 做索引與搜索。它提供"準實時搜索"能力,并且能動態(tài)集群規(guī)模,彈性擴容。

Elasticsearch 使用 Lucene 作為其全文搜索引擎,用于處理純文本的數(shù)據(jù),但 Lucene 只是一個庫,提供建立索引、執(zhí)行搜索等接口,但不包含分布式服務,這些正是 Elasticsearch 做的。

下面,我們來介紹一下 ElasticSearch 的相關(guān)概念。為了便于初學者理解,我們先將 ElasticSearch 中的概念和 MySQL 中的概念大致地進行對應。但是二者在具體細節(jié)上還是有很多差異的,大家深入了解 ElasticSearch 就會將二者區(qū)分清楚,不能強行對比等同。

2d9fa832-9878-11eb-8b86-12bb97331649.png

ElasticSearch 中的索引 Index 類似于 MySQL 中的數(shù)據(jù)庫 Database;

ElasticSearch 中的類型 Type 類似于 MySQL 中的表 Table;需要注意,這個概念在 7.x 版本中被完全刪除,而且概念上和 Table 也有較大差異;

ElasticSearch 中的文檔 Document 類似于 MySQL 中的數(shù)據(jù)行 Row,每個文檔由多個字段 Filed 組成,這個Filed 就類似于 MySQL 的 Column;

ElasticSearch 中的映射 Mapping 是對索引庫中的索引字段及其數(shù)據(jù)類型進行定義,類似于關(guān)系型數(shù)據(jù)庫中的表結(jié)構(gòu) Schema;

ElasticSearch 使用自己的領域語言 Query DSL 來進行增刪改查,而 MySQL 使用 SQL 語言進行上訴操作。

ElasticSearch 還有一系列有關(guān)其分布式特性的概念,我們這里就暫不介紹了,等后續(xù)學習到其分布式特性時在進行介紹。

倒排索引

MySQL 有 B+ 樹索引,而 ElasticSearch 則是倒排索引 (Inverted Index),它通過倒排索引來實現(xiàn)比 MySQL 更快的過濾和復雜條件的查詢,此外,全文搜索功能也是依賴倒排索引才能實現(xiàn)。下面,我們就具體來看一下何為倒排索引。

倒排索引按照維基百科的描述,是存儲文檔內(nèi)容到文檔位置映射關(guān)系的數(shù)據(jù)庫索引結(jié)構(gòu)。不過只看定義,我是有點迷惑,這不是和 MySQL 的非主鍵索引類似嘛,為什么要叫它“倒排”呢?這個問題我目前也為搞清楚,可能要等到后續(xù)了解了其具體實現(xiàn)才能理解。

我們還是以書籍檢索為例,假設有以下數(shù)據(jù),每一行就是一個 Document,每個 Document 由 id、ISBN 號,作者名稱和評分組成。

2da88b00-9878-11eb-8b86-12bb97331649.png

給上述數(shù)據(jù)按照 ISBN 和 Author 建立的倒排索引如下所示。倒排索引是每個字段分開建立的,相互獨立。有兩個專門的術(shù)語,分別是索引 Term 和倒排表 Posting List。字段的值就是 Term,比如 N0007,而 Term 對應的文檔 ID 的列表就是 Posting List,對應圖中紅色的部分。

2db4f4f8-9878-11eb-8b86-12bb97331649.png

一般 Term 都是按照順序排序的,比如 Author 名稱就是按照字母序進行了排序,排序之后,當我們搜索某一個 Term 時,就不需要從頭遍歷,而是采用二分查找。一系列排序后的 Term 就組成了索引表 Term Dictionary。

但是 Term Dictionary 往往很大,無法完整放入內(nèi)存,這是為了更快的查詢,還需要再給它創(chuàng)建索引,也就是 Term Index 。

ElasticSearch 使用 Burst-Trie 結(jié)構(gòu)來實現(xiàn) Term Index,它是一種前綴樹 Trie 的一種變種,它主要是將后綴進行了壓縮,降低了Trie的高度,從而獲取更好查詢性能。

Term Index 并不需要像 MySQL 的索引一樣,包含所有的 Term,而是包含的是這些 Term 的前綴。它就類似于字典的查詢目錄,可以進行快速定位到 Term Dictionary 的某一位置,然后再從這個位置向后查詢。

綜上, Alice,Alf,Arlan,Bob,Tom 等詞的倒排索引如下所示。綠色部分是 Term Index,藍色部分是 Term Dictionary,紅色部分是 Posting List。

2dbdad14-9878-11eb-8b86-12bb97331649.png

一般來說,Term Index 都是全部緩存在內(nèi)存中,查詢時,先通過其快速定位到 Term Dictionary 對應的大致范圍,然后再進行磁盤讀取查找對應的 Term,這樣就大大減少了磁盤 I/O 的次數(shù)。

聯(lián)合索引查詢

了解了 ElasticSearch 的倒排索引后,我們再來看看其如何處理復雜的聯(lián)合索引查詢。比如上述書籍例子中,我們需要查詢評分等于2.2并且作者名稱叫 Tom 的書籍。

理論上,我們只需要分別按照 Score 和 Author 字段的倒排索引進行查詢,獲取響應的 Posting List,再將其做交集合并即可。

這里又要吐槽一下 MySQL,它是不支持這個合并操作的,它只能按照一個字段的索引進行查詢,然后根據(jù)另外一個字段的條件做內(nèi)存過濾。順便說一下,MySQL 的 join 功能也弱爆了,感興趣的同學可以了解一下。

而 ElasticSearch 則支持使用跳表 Skip List和 Bitset 的方式將數(shù)據(jù)集進行合并。

使用 Skip List 結(jié)構(gòu),同時遍歷 Score 和 Author 查詢出來的 Posting List,利用其 Skip List 結(jié)構(gòu),相互跳躍對比,得出合集。

使用 Bitset 結(jié)構(gòu),對 Score 和 Author 查詢出來的 Posting List 的值計算出各自的 Bitset,然后進行 AND 操作。

跳表合并策略

ElasticSearch 在存儲 Posting List 數(shù)據(jù)時,就保存了對應的多級跳表結(jié)構(gòu)響應的數(shù)據(jù),這也體現(xiàn)了其空間換時間的基本思想。

這里先介紹一下跳表的基本概念,它其實是一種可以進行二分查找的有序鏈表。跳表在原有的有序鏈表上面增加了多級索引,通過索引來實現(xiàn)快速查找。首先在最高級索引上查找最后一個小于當前查找元素的位置,然后再跳到次高級索引繼續(xù)查找,直到跳到最底層為止,通過這種方式,加快了查詢的速度。

比如,按照 Score 查出來的 Posting List 為 [2,3,4,5,7,9,10,11],按照 Author 查出來的結(jié)果為 [3,8,9,12,13],則二者的跳表結(jié)構(gòu)如下圖所示。

2dd4c8dc-9878-11eb-8b86-12bb97331649.png

具體合并過程則是先選最短的 posting list,也就是 Author 的結(jié)果集,從其最小的一個 id 開始,將其作為當前最大值。然后依次剩余 posting list 中查找大于或等于該值的位置。

比如上述結(jié)果集中,先去 Score 結(jié)果集中查找 3,找到后,就表明 3是二者的合集元素之一;然后再重新開啟一輪,選取 Author 結(jié)果集中 3 的下一個值 8 ,去 Score 結(jié)果集查詢 8,發(fā)現(xiàn)了大于等于 8 的最小的值是 9 ,所以不可能有共同的值 8,然后再去 Author 結(jié)果集查找 9 ,發(fā)現(xiàn)其大于等于 9 的最小值是 12,所以再去 Score 結(jié)果集中查找大于等于 12的值,發(fā)現(xiàn)并不存在;最終得出二者的合集就只有 [3]。

在查詢過程中,每個 posting list 都可以根據(jù)當前 id 通過 skip list 快速跳過不符合的 id 值,加速整個合并取交集的過程。

ElasticSearch 對于較長的 posting list 也會使用 Frame Of Reference 進行壓縮編碼,減少了磁盤占用,減少了索引尺寸。有關(guān)具體存儲結(jié)構(gòu)的實現(xiàn)我們后續(xù)再進行細聊。

Bitset 合并策略

ElasticSearch 除了使用 skipList 來進行數(shù)據(jù)磁盤讀取時的合并操作外,還會將一些查詢條件對應的結(jié)果集 posting list 進行內(nèi)存緩存,也就是所謂的 Filter Cache,為了后續(xù)再次復用。

為了減少內(nèi)存緩存所消耗的內(nèi)存空間大小,ElasticSearch 沒有使用單純的數(shù)組和 bitset 來存儲 posting list,而是使用要壓縮效率更高的 Roaring Bitmap。

我們可以先來講一下單純數(shù)組或 bitset 數(shù)據(jù)結(jié)構(gòu)為什么并不使用。比如如下一道較為常見的面試題目:

給定含有 40 億個不重復的位于 [0, 2^32 - 1] 區(qū)間內(nèi)的整數(shù)的集合,如何快速判定某個數(shù)是否在該集合內(nèi)?

如果我們要使用 unsigned long 數(shù)組來存儲它的話,也就需要消耗 40億 * 32 位 = 160 Byte,大致是 16000 MB。

如果要使用位圖 Bitset 來存儲的話,即某個數(shù)位于原集合內(nèi),就將它對應的位圖內(nèi)的比特置為1,否則保持為0。這樣只需要消耗 2 ^ 32 位 = 512 MB,這可只有原來的 3.2 % 左右。

但是,Bitset 也有其缺陷,也就是稀疏存儲的問題,比如上述集合并不是 40億,而是只有2、3個,那么 Bitset 中只有少數(shù)幾位是1,其他位都是 0,但是它仍然占用了 512 MB。

而 RoaringBitmap 就是為了解決稀疏存儲的問題。下圖就是 RoaringBitmap 的基本原理示意圖。

2e0350bc-9878-11eb-8b86-12bb97331649.png

首先,如上圖所示,計算出32位無符號整數(shù)和 65536 的除數(shù)和余數(shù)。其含義表示,將32位無符號整數(shù)按照高16位分桶,即最多可能有2^16=65536個桶,術(shù)語懲治為 container。存儲數(shù)據(jù)時,按照數(shù)據(jù)的高16位找到 container(找不到就會新建一個),再將低16位放入container中。也就是說,一個 RoaringBitmap 就是很多container的集合。

然后 container 內(nèi)具體的存儲結(jié)構(gòu)要根據(jù)存入其內(nèi)數(shù)據(jù)的基數(shù)來決定。

基數(shù)小于 2 ^ 12 次方即 4096時,使用unsigned short類型的有序數(shù)組來存儲,最大消耗空間就是 8 KB;

基數(shù)大于 4096 時,則使用大小為 2 ^ 16 次方的普通 bitset 來存儲,固定消耗 8 KB。當然,有些時候也會對 bitset 進行行程長度編碼(RLE)壓縮,進一步減少空間占用。

ElasticSearch 就是使用 Roaring Bitmap 來緩存不同條件查詢出來的 posting list,然后再進行與操作計算出最終結(jié)果集。

后記

至此,我們也算了解了 ElasticSearch 為什么比 MySQL 更適合復雜條件查詢,但是有好就有弊,因為為了查詢做了這么多的準備工作,ElasticSearch 的插入速度就會慢于 MySQL,而且數(shù)據(jù)存入 ES 后并不是立馬就能檢索到。

原文標題:為什么 ElasticSearch 比 MySQL 更適合復雜條件搜索

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4203

    瀏覽量

    46128
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    905

    瀏覽量

    29518

原文標題:為什么 ElasticSearch 比 MySQL 更適合復雜條件搜索

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    磁盤IO問題的定位根因與調(diào)優(yōu)解決思路

    監(jiān)控大屏上 iowait 突然飆到 80%,SSH 連上去敲個 ls 要等 5 秒才有響應,業(yè)務日志瘋狂報超時,數(shù)據(jù)庫慢查詢告警刷屏。這種場景在 SRE 的日常里出現(xiàn)頻率極高,尤其是跑著 MySQL
    的頭像 發(fā)表于 02-24 14:11 ?316次閱讀

    恒訊科技解析:如何安裝MySQL并創(chuàng)建數(shù)據(jù)庫

    安裝和管理MySQL不必復雜。只需幾分鐘,你就能在Linux服務器上搭建MySQL,創(chuàng)建第一個數(shù)據(jù)庫,甚至自動化備份——同時確保數(shù)據(jù)安全有序。 什么是 MySQL?
    的頭像 發(fā)表于 01-14 14:25 ?175次閱讀

    從0到1搭建實時日志監(jiān)控系統(tǒng):基于WebSocket + Elasticsearch的實戰(zhàn)方案

    1. 背景與痛點 在開發(fā)分布式系統(tǒng)時,日志分散在多個服務節(jié)點中,傳統(tǒng)輪詢查詢方式存在延遲高、資源浪費的問題。某次線上故障中,因未能實時發(fā)現(xiàn)錯誤日志,導致問題排查時間延長2小時。因此,決定自研一套
    發(fā)表于 01-09 16:43

    MySQL查詢優(yōu)化案例

    凌晨3點,手機瘋狂震動。監(jiān)控告警顯示:核心業(yè)務接口響應時間超過20秒,用戶投訴如潮水般涌來。這是每個運維工程師的噩夢時刻。
    的頭像 發(fā)表于 08-27 14:49 ?711次閱讀

    MySQL查詢終極優(yōu)化指南

    作為一名在生產(chǎn)環(huán)境摸爬滾打多年的運維工程師,我見過太多因為慢查詢導致的線上故障。今天分享一套經(jīng)過實戰(zhàn)檢驗的MySQL查詢分析與索引優(yōu)化方法論,幫你徹底解決數(shù)據(jù)庫性能瓶頸。
    的頭像 發(fā)表于 08-13 15:55 ?844次閱讀

    MySQL配置調(diào)優(yōu)技巧

    上個月,我們公司的核心業(yè)務系統(tǒng)突然出現(xiàn)大面積超時,用戶投訴電話不斷。經(jīng)過緊急排查,發(fā)現(xiàn)是MySQL服務器CPU飆升到99%,大量慢查詢堆積。通過一系列配置調(diào)優(yōu)和SQL優(yōu)化,最終在30分鐘內(nèi)恢復了服務。
    的頭像 發(fā)表于 07-31 10:27 ?607次閱讀

    MySQL 8.0性能優(yōu)化實戰(zhàn)指南

    作為一名運維工程師,MySQL數(shù)據(jù)庫優(yōu)化是我們?nèi)粘9ぷ髦凶罹咛魬?zhàn)性的任務之一。MySQL 8.0作為當前主流版本,在性能、安全性和功能上都有了顯著提升,但如何充分發(fā)揮其潛力,仍需要我們掌握正確的優(yōu)化策略。
    的頭像 發(fā)表于 07-24 11:48 ?850次閱讀

    MySQL的組成結(jié)構(gòu)與結(jié)構(gòu)化查詢語言詳解

    MySQL作為世界上最流行的開源關(guān)系型數(shù)據(jù)庫管理系統(tǒng),采用了分層架構(gòu)設計
    的頭像 發(fā)表于 07-14 11:21 ?640次閱讀

    MySQL數(shù)據(jù)備份與恢復策略

    數(shù)據(jù)是企業(yè)的核心資產(chǎn),MySQL作為主流的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),其數(shù)據(jù)的安全性和可靠性至關(guān)重要。本文將深入探討MySQL的數(shù)據(jù)備份策略、常用備份工具以及數(shù)據(jù)恢復的最佳實踐,幫助運維工程師構(gòu)建完善的數(shù)據(jù)保護體系。
    的頭像 發(fā)表于 07-14 11:11 ?726次閱讀

    企業(yè)級MySQL數(shù)據(jù)庫管理指南

    在當今數(shù)字化時代,MySQL作為全球最受歡迎的開源關(guān)系型數(shù)據(jù)庫,承載著企業(yè)核心業(yè)務數(shù)據(jù)的存儲與處理。作為數(shù)據(jù)庫管理員(DBA),掌握MySQL的企業(yè)級部署、優(yōu)化、維護技能至關(guān)重要。本文將從實戰(zhàn)角度出發(fā),系統(tǒng)闡述MySQL在企業(yè)環(huán)
    的頭像 發(fā)表于 07-09 09:50 ?717次閱讀

    媒體查詢詳解

    < 2) :表示包含多個媒體特征的多條件復雜語句查詢,當設備類型為tv或設備分辨率小于2時條件成立。 媒體類型(media-type) 類型說明screen按屏幕相關(guān)
    發(fā)表于 06-25 08:26

    MySQL數(shù)據(jù)庫是什么

    MySQL數(shù)據(jù)庫是一種 開源的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS) ,由瑞典MySQL AB公司開發(fā),后被Oracle公司收購。它通過結(jié)構(gòu)化查詢語言(SQL)進行數(shù)據(jù)存儲、管理和操作,廣泛應用于Web
    的頭像 發(fā)表于 05-23 09:18 ?1205次閱讀

    單節(jié)點Elasticsearch+Filebeat+Kibana安裝指南

    單節(jié)點Elasticsearch+Filebeat+Kibana安裝指南
    的頭像 發(fā)表于 05-21 11:06 ?1188次閱讀
    單節(jié)點<b class='flag-5'>Elasticsearch</b>+Filebeat+Kibana安裝指南

    MySQL簡介與理論基礎

    MySQL是世界上最流行的開源關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,廣泛應用于網(wǎng)站、應用程序和企業(yè)級系統(tǒng)。它采用客戶端/服務器架構(gòu),支持多用戶環(huán)境,并基于SQL(結(jié)構(gòu)化查詢語言)標準。
    的頭像 發(fā)表于 05-21 10:43 ?729次閱讀

    新型光伏氣象站在復雜地形條件下的適應性與性能評估

    隨著光伏發(fā)電行業(yè)的蓬勃發(fā)展,光伏電站在復雜地形區(qū)域的建設日益增多。這使得新型光伏氣象站在復雜地形條件下的適應性和性能表現(xiàn)成為關(guān)鍵問題。本文針對新型光伏氣象站,詳細闡述其在復雜地形中面臨
    的頭像 發(fā)表于 03-26 11:00 ?761次閱讀