91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌用ML模型替代數(shù)據(jù)庫組件,或徹底改變數(shù)據(jù)系統(tǒng)開發(fā),機器學(xué)習(xí)將取代數(shù)據(jù)庫搜索

DPVg_AI_era ? 2017-12-14 16:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本周,谷歌團隊在arXiv上傳了一篇論文,探討用機器學(xué)習(xí)取代數(shù)據(jù)庫索引,引發(fā)了大量的關(guān)注和討論。作者還概述了如何使用這一思想來替換數(shù)據(jù)庫系統(tǒng)的其他組件和操作,包括排序和連接。如果成功,數(shù)據(jù)系統(tǒng)的開發(fā)方式將會徹底改變。

“如果這項研究取得更多的成果,將來有一天我們很可能回過頭看然后說,索引是最先倒下的,接著是其他的數(shù)據(jù)庫組件(排序算法、查詢優(yōu)化、連接),它們都逐漸被神經(jīng)網(wǎng)絡(luò)取代?!奔~約州立大學(xué)布法羅分校的計算機科學(xué)和工程教授Murat Demirbas這樣說。

文章描述了一個非常有前景且十分有趣的方向,題目讀來也頗有小說的感覺——“The Case for Learned Index Structures”。

這篇論文旨在證明“機器學(xué)習(xí)模型有潛力大幅超越當(dāng)前最先進的數(shù)據(jù)庫索引,提供好很多的性能”。

斯坦福大學(xué)Chirs Manning教授發(fā)表Twitter,評論稱谷歌團隊這篇論文用機器學(xué)習(xí)替代傳統(tǒng)算法,而且“一口吃掉一大塊”

用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)分布,讓索引“data-aware”

索引(Index),就是一種對數(shù)據(jù)庫表中一列或多列的值進行排序的結(jié)構(gòu),使用索引可以快速訪問數(shù)據(jù)庫表中的特定信息。數(shù)據(jù)庫的索引好比圖書的目錄,目錄能讓你在看書時不把整本書看完就快速找到需要的信息,索引也能讓數(shù)據(jù)庫程序迅速地找到表中的數(shù)據(jù),而不必將整個數(shù)據(jù)庫掃描完。

但是,數(shù)據(jù)庫在應(yīng)用索引時,對數(shù)據(jù)本身并不了解,數(shù)據(jù)相當(dāng)于一個黑盒,而不了解數(shù)據(jù)的分布,造成了很大的浪費。

舉例來說,如果鍵的范圍在0到500m之間,比起用哈希,直接把鍵當(dāng)索引速度可能更快。如果知道了數(shù)據(jù)的累積分布函數(shù)(CDF),“CDF*鍵*記錄大小”可能約等于要查找的記錄的位置,這一點也適用于其他數(shù)據(jù)分布的情況。

數(shù)據(jù)的累積分布函數(shù)(CDF)可以作為索引

作者在論文中表示,精確了解數(shù)據(jù)分布,可以大幅優(yōu)化當(dāng)前數(shù)據(jù)庫系統(tǒng)使用的幾乎所有索引結(jié)構(gòu)。

但是,精確了解數(shù)據(jù)分布,數(shù)據(jù)庫就成了“白盒”,失去了可重用性。這樣一來就需要檢查數(shù)據(jù),每次都從頭開始設(shè)計索引。

于是,谷歌研究人員想到了機器學(xué)習(xí)方法,并使用其中最強的一種——神經(jīng)網(wǎng)絡(luò),去學(xué)習(xí)數(shù)據(jù)分布,并用學(xué)到的知識預(yù)測數(shù)據(jù)的分布。

這樣一種折中的方法,讓數(shù)據(jù)索引變得“data-aware”,由此獲得性能的提升。

如果成功,數(shù)據(jù)庫開發(fā)方式可能徹底改變

他們將神經(jīng)網(wǎng)絡(luò)應(yīng)用于三種索引類型:B樹,用于處理范圍查詢;哈希映射(Hash-map),用于點查找查詢;以及Bloom-filter,用于設(shè)置包含檢查。下面著重介紹一下作者如何用神經(jīng)網(wǎng)絡(luò)替代B樹。

B樹提供了一種有效的分層索引。從概念上講,B-tree將一個鍵映射到一個頁面。因此,我們可以用一個模型,也進行鍵的位置映射,而對于錯誤范圍,我們可以做一個二進制搜索(或擴展環(huán)搜索)的變體來定位頁面。

要知道m(xù)in_error和max-error,就用擁有的數(shù)據(jù)來訓(xùn)練模型。數(shù)據(jù)是靜態(tài)的,神經(jīng)網(wǎng)絡(luò)進行預(yù)測,然后從這些錯誤中學(xué)習(xí)。即使簡單的邏輯回歸也可以用于簡單的分布。

在測試時,作者將機器學(xué)習(xí)索引與B樹進行比較,他們使用了3個真實世界數(shù)據(jù)集,其中網(wǎng)絡(luò)日志數(shù)據(jù)集(Weblogs)對索引而言極具挑戰(zhàn)性,包含了200多萬個日志條目,是很多年的大學(xué)網(wǎng)站的請求,而且每個請求都有單一的時間戳,數(shù)據(jù)中含有非常復(fù)雜的時間模式,包括課程安排、周末、假期、午餐休息、部門活動、學(xué)期休息,這些都是非常難以學(xué)習(xí)的。

從上圖可見,對于網(wǎng)絡(luò)日志數(shù)據(jù),機器學(xué)習(xí)索引帶來的速度提升最高達到了53%,對應(yīng)的體積也有76%的縮小,相比之下誤差范圍稍有加大。

用機器學(xué)習(xí)模型替換B樹的好處是:

  • 索引結(jié)構(gòu)更?。焊俚闹鲀?nèi)存或L1緩存

  • 查找速度更快:因為索引變小了

  • 更強的并行性(TPU),而不是B-樹中的分層if語句

這里有一個關(guān)鍵點,那就是用計算換內(nèi)存,計算越來越便宜,CPU-SIMD/GPU/TPU的功能越來越強大,作者甚至指出,“運行神經(jīng)網(wǎng)絡(luò)的高昂成本在未來可以忽略不計——谷歌TPU能夠在一個周期內(nèi)最高完成上萬次神經(jīng)網(wǎng)絡(luò)運算。有人聲稱,到2025年CPU的性能將提高1000倍,基于摩爾定律的CPU在本質(zhì)上將不復(fù)存在。利用神經(jīng)網(wǎng)絡(luò)取代分支重索引結(jié)構(gòu),數(shù)據(jù)庫可以從這些硬件的發(fā)展趨勢中受益。

論文還介紹了幾個策略來提高機器學(xué)習(xí)索引的性能,包括使用遞歸模型索引、分層模型和混合模型。機器學(xué)習(xí)方法都帶來了能效提升,具體的評估結(jié)果請參考論文。

需要指出,作者并不認為機器學(xué)習(xí)索引結(jié)構(gòu)可以完全替代傳統(tǒng)索引?!拔覀冋撌隽艘环N建立索引的新方法,它完善了現(xiàn)有的研究,并且為該領(lǐng)域數(shù)十年的研究開辟了一個新方向?!?/span>

作者還概述了如何使用這一思想來替換數(shù)據(jù)庫系統(tǒng)的其他組件和操作,包括排序和連接。如果成功,數(shù)據(jù)系統(tǒng)的開發(fā)方式將會徹底改變。

論文:The Case for Learned Index Structures

摘要

索引就是模型:B-Tree-Index可以被看作一個將鍵(key)映射到排序數(shù)組中記錄位置的模型,哈希索引可以被看作將鍵映射到未分類數(shù)組中記錄位置的模型,而BitMap-Index可以被看作查看數(shù)據(jù)記錄是否存在的模型。

在這篇探索性研究論文中,我們從這個前提出發(fā),假設(shè)所有現(xiàn)有的索引結(jié)構(gòu)都可以用其他類型的模型來代替,包括深度學(xué)習(xí)模型,也即文中所謂的“機器學(xué)習(xí)索引”(learned indexes)。

本文關(guān)鍵思想是,一個模型可以學(xué)習(xí)排序順序或查找鍵的結(jié)構(gòu),并使用這個信號來有效預(yù)測記錄的位置或記錄是否存在。我們從理論上分析了在哪些條件下機器學(xué)習(xí)索引的性能優(yōu)于傳統(tǒng)索引結(jié)構(gòu),描述了設(shè)計機器學(xué)習(xí)索引的主要挑戰(zhàn)。

我們在幾個真實世界的數(shù)據(jù)集上做了測試,初步結(jié)果表明,通過使用神經(jīng)網(wǎng)絡(luò),我們在速度上能比緩存優(yōu)化的B樹快70%,同時內(nèi)存節(jié)省了一個數(shù)量級。更重要的是,我們相信用機器學(xué)習(xí)模型取代數(shù)據(jù)管理系統(tǒng)核心組件的想法,對未來的系統(tǒng)設(shè)計有著深遠的影響,這項工作僅僅展現(xiàn)了未來無限可能的一瞥。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111336
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    4018

    瀏覽量

    68327
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136919

原文標(biāo)題:【機器學(xué)習(xí)吃掉算法】谷歌用ML模型替代數(shù)據(jù)庫組件,或徹底改變數(shù)據(jù)系統(tǒng)開發(fā)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    艾體寶干貨 | 多模型數(shù)據(jù)庫解決的到底是什么問題?

    了其設(shè)計的核心初衷。要精準(zhǔn)理解多模型數(shù)據(jù)庫,需先跳出“功能誤區(qū)”,回歸問題本質(zhì):企業(yè)系統(tǒng)數(shù)據(jù)庫復(fù)雜度,究竟源于何處? 系統(tǒng)變復(fù)雜,往往不只
    的頭像 發(fā)表于 02-03 16:08 ?313次閱讀

    恒訊科技解析:如何安裝MySQL并創(chuàng)建數(shù)據(jù)庫

    管理系統(tǒng)(RDBMS),使用結(jié)構(gòu)化查詢語言(SQL)高效地組織和管理數(shù)據(jù)。它是全球最受歡迎的開源數(shù)據(jù)庫系統(tǒng)之一,廣泛應(yīng)用于網(wǎng)頁開發(fā)、電子商務(wù)和商業(yè)應(yīng)用。 常見
    的頭像 發(fā)表于 01-14 14:25 ?169次閱讀

    2025開放原子開發(fā)者大會AI時代數(shù)據(jù)庫創(chuàng)新實踐分論壇成功舉辦

    11月21日,2025開放原子開發(fā)者大會——AI時代數(shù)據(jù)庫創(chuàng)新實踐分論壇成功舉辦。論壇以“構(gòu)建AI時代智能數(shù)據(jù)底座”為核心主題,匯聚OpenTenBase、Apache Doris、KWDB
    的頭像 發(fā)表于 11-27 14:56 ?585次閱讀

    國產(chǎn)數(shù)據(jù)庫的AI戰(zhàn)事

    國產(chǎn)數(shù)據(jù)庫硝煙再起,Vastbase V100構(gòu)筑企業(yè)智能基座
    的頭像 發(fā)表于 10-24 20:45 ?4010次閱讀
    國產(chǎn)<b class='flag-5'>數(shù)據(jù)庫</b>的AI戰(zhàn)事

    mysql數(shù)據(jù)恢復(fù)—mysql數(shù)據(jù)庫表被truncate的數(shù)據(jù)恢復(fù)案例

    某云ECS網(wǎng)站服務(wù)器,linux操作系統(tǒng),部署了mysql數(shù)據(jù)庫。工作人員在執(zhí)行數(shù)據(jù)庫版本更新測試時,錯誤地本應(yīng)在測試執(zhí)行的sql腳本在
    的頭像 發(fā)表于 09-11 09:28 ?864次閱讀
    mysql<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—mysql<b class='flag-5'>數(shù)據(jù)庫</b>表被truncate的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    數(shù)據(jù)庫性能優(yōu)化指南

    作為一名在大廠摸爬滾打多年的運維老兵,我見過太多因為數(shù)據(jù)庫性能問題導(dǎo)致的生產(chǎn)事故。今天分享一套完整的數(shù)據(jù)庫優(yōu)化方法論,從SQL層面到硬件配置,幫你徹底解決性能瓶頸!
    的頭像 發(fā)表于 08-18 11:21 ?738次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—服務(wù)器異常斷電導(dǎo)致Oracle數(shù)據(jù)庫故障的數(shù)據(jù)恢復(fù)案例

    Oracle數(shù)據(jù)庫故障: 某公司一臺服務(wù)器上部署Oracle數(shù)據(jù)庫。服務(wù)器意外斷電導(dǎo)致數(shù)據(jù)庫報錯,報錯內(nèi)容為“system01.dbf需要更多的恢復(fù)來保持一致性”。該Oracle數(shù)據(jù)庫
    的頭像 發(fā)表于 07-24 11:12 ?630次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—服務(wù)器異常斷電導(dǎo)致Oracle<b class='flag-5'>數(shù)據(jù)庫</b>故障的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    三款主流國產(chǎn)數(shù)據(jù)庫的技術(shù)特點

    隨著數(shù)字經(jīng)濟的快速發(fā)展和數(shù)據(jù)安全要求的提升,國產(chǎn)數(shù)據(jù)庫正迎來前所未有的發(fā)展機遇。在信創(chuàng)浪潮推動下,達夢數(shù)據(jù)庫、TiDB、華為高斯數(shù)據(jù)庫等國產(chǎn)數(shù)據(jù)庫
    的頭像 發(fā)表于 07-14 11:08 ?1144次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—MongoDB數(shù)據(jù)庫文件丟失的數(shù)據(jù)恢復(fù)案例

    MongoDB數(shù)據(jù)庫數(shù)據(jù)恢復(fù)環(huán)境: 一臺操作系統(tǒng)為Windows Server的虛擬機上部署MongoDB數(shù)據(jù)庫。 MongoDB數(shù)據(jù)庫
    的頭像 發(fā)表于 07-01 11:13 ?634次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—MongoDB<b class='flag-5'>數(shù)據(jù)庫</b>文件丟失的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫被加密如何恢復(fù)數(shù)據(jù)

    SQL Server數(shù)據(jù)庫故障: SQL Server數(shù)據(jù)庫被加密,無法使用。 數(shù)據(jù)庫MDF、LDF、log日志文件名字被篡改。
    的頭像 發(fā)表于 06-25 13:54 ?667次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—SQL Server<b class='flag-5'>數(shù)據(jù)庫</b>被加密如何恢復(fù)<b class='flag-5'>數(shù)據(jù)</b>?

    oracle數(shù)據(jù)恢復(fù)—oracle數(shù)據(jù)庫誤執(zhí)行錯誤truncate命令如何恢復(fù)數(shù)據(jù)?

    oracle數(shù)據(jù)庫誤執(zhí)行truncate命令導(dǎo)致數(shù)據(jù)丟失是一種常見情況。通常情況下,oracle數(shù)據(jù)庫誤操作刪除數(shù)據(jù)只需要通過備份恢復(fù)數(shù)據(jù)
    的頭像 發(fā)表于 06-05 16:01 ?1029次閱讀
    oracle<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—oracle<b class='flag-5'>數(shù)據(jù)庫</b>誤執(zhí)行錯誤truncate命令如何恢復(fù)<b class='flag-5'>數(shù)據(jù)</b>?

    SQLSERVER數(shù)據(jù)庫是什么

    SQL Server 是由微軟公司開發(fā)的一款 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS) ,用于存儲、管理和檢索結(jié)構(gòu)化數(shù)據(jù)。它是企業(yè)級應(yīng)用中廣泛使用的數(shù)據(jù)庫
    的頭像 發(fā)表于 05-26 09:19 ?1166次閱讀

    MySQL數(shù)據(jù)庫是什么

    開發(fā)、企業(yè)應(yīng)用和大數(shù)據(jù)場景。以下是其核心特性和應(yīng)用場景的詳細說明: 核心特性 關(guān)系型數(shù)據(jù)庫模型 數(shù)據(jù)以 表(Table) 形式組織,表由行(
    的頭像 發(fā)表于 05-23 09:18 ?1188次閱讀

    分布式存儲數(shù)據(jù)恢復(fù)—虛擬機上hbase和hive數(shù)據(jù)庫數(shù)據(jù)恢復(fù)案例

    分布式存儲數(shù)據(jù)恢復(fù)環(huán)境: 16臺某品牌R730xd服務(wù)器節(jié)點,每臺服務(wù)器節(jié)點上有數(shù)臺虛擬機。 虛擬機上部署Hbase和Hive數(shù)據(jù)庫。 分布式存儲故障: 數(shù)據(jù)庫底層文件被誤刪除,數(shù)
    的頭像 發(fā)表于 04-17 11:05 ?712次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)——MongoDB數(shù)據(jù)庫文件拷貝后服務(wù)無法啟動的數(shù)據(jù)恢復(fù)

    MongoDB數(shù)據(jù)庫數(shù)據(jù)恢復(fù)環(huán)境: 一臺Windows Server操作系統(tǒng)虛擬機上部署MongoDB數(shù)據(jù)庫。 MongoDB數(shù)據(jù)庫
    的頭像 發(fā)表于 04-09 11:34 ?863次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)——MongoDB<b class='flag-5'>數(shù)據(jù)庫</b>文件拷貝后服務(wù)無法啟動的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)