實(shí)現(xiàn)更快的數(shù)據(jù)湖分析及簡化數(shù)據(jù)發(fā)現(xiàn)和洞察
Amazon S3 Tables為分析工作負(fù)載提供了快達(dá)3倍的查詢性能,高達(dá)10倍的每秒事務(wù)處理量;Amazon S3 Metadata提供可查詢的對(duì)象元數(shù)據(jù),實(shí)現(xiàn)近乎實(shí)時(shí)的搜索、管理和增強(qiáng)數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)。
北京2024年12月17日 /美通社/ -- 亞馬遜云科技在2024 re:Invent全球大會(huì)上,宣布推出Amazon Simple Storage Service(Amazon S3)新功能,使Amazon S3成為首個(gè)完全托管的支持Apache Iceberg云上對(duì)象存儲(chǔ),進(jìn)一步提升了數(shù)據(jù)分析速度,并提供存儲(chǔ)和管理任何規(guī)模表格數(shù)據(jù)的極簡單方式。新功能還包括自動(dòng)生成可查詢的元數(shù)據(jù),簡化數(shù)據(jù)發(fā)現(xiàn)與理解,助力客戶充分挖掘Amazon S3中的數(shù)據(jù)價(jià)值。
Amazon S3 Tables是首個(gè)內(nèi)置Apache Iceberg表支持的云上對(duì)象存儲(chǔ),推出了一種新型存儲(chǔ)桶,以Iceberg表的形式優(yōu)化存儲(chǔ)和表數(shù)據(jù)查詢,查詢速度最高可提升3倍,每秒事務(wù)處理量(TPS)可提高10倍,并自動(dòng)化分析工作負(fù)載的表格維護(hù)。
Amazon S3 Metadata通過自動(dòng)捕獲可查詢的對(duì)象元數(shù)據(jù)以及使用對(duì)象標(biāo)簽的自定義元數(shù)據(jù),將其存儲(chǔ)于Amazon S3 Tables中來加速數(shù)據(jù)湖分析,可實(shí)現(xiàn)近乎實(shí)時(shí)的數(shù)據(jù)發(fā)現(xiàn)。
亞馬遜云科技存儲(chǔ)部門副總裁兼杰出工程師Andy Warfield表示:"Amazon S3作為領(lǐng)先的對(duì)象存儲(chǔ),存儲(chǔ)了超過400萬億個(gè)對(duì)象,成為數(shù)百萬客戶的選擇。我們致力于不斷創(chuàng)新,以前所未有的規(guī)模消除處理數(shù)據(jù)的復(fù)雜性。隨著表格數(shù)據(jù)的快速增長,眾多客戶希望實(shí)現(xiàn)跨表查詢并提升查詢性能,更好地理解和組織大量數(shù)據(jù),以便輕松找到他們所需要的信息。Amazon S3 Tables和Amazon S3 Metadata消除了在對(duì)象上組織和操作表格及元數(shù)據(jù)存儲(chǔ)的復(fù)雜性,使客戶能夠?qū)W⒂跀?shù)據(jù)構(gòu)建。"
Amazon S3 Tables和Amazon S3 Metadata現(xiàn)已與Apache Iceberg表兼容,客戶可以使用亞馬遜云科技分析服務(wù)以及開源工具,包括Amazon Athena、Amazon QuickSight和Apache Spark,輕松查詢他們的數(shù)據(jù)。
Amazon S3 Table:以簡便快捷的方式執(zhí)行Amazon S3中的Apache Iceberg表分析
如今,許多客戶都以表格數(shù)據(jù)來組織他們用于分析的數(shù)據(jù),這些數(shù)據(jù)通常存儲(chǔ)在Apache Parquet 中,這是一種針對(duì)數(shù)據(jù)查詢進(jìn)行優(yōu)化的文件格式。Parquet已成為Amazon S3中增速最快的數(shù)據(jù)類型之一??蛻粼絹碓蕉嗟叵M軌虿樵冞@些不斷增長的表格數(shù)據(jù)集,他們通常會(huì)使用開放表格式(open table formats,OTF),這是一種以表格存儲(chǔ)數(shù)據(jù)的開源標(biāo)準(zhǔn),有助于更有效地管理、更新和跟蹤大量數(shù)據(jù)的變化。Iceberg管理Parquet文件,已成為最流行的OTF??蛻羰褂肐ceberg處理包含PB乃至EB級(jí)數(shù)據(jù)的數(shù)十億文件。但隨著客戶規(guī)模的擴(kuò)大,客戶管理Iceberg極具挑戰(zhàn),往往需要專業(yè)的團(tuán)隊(duì)來構(gòu)建和維護(hù)系統(tǒng),進(jìn)行表維護(hù)、數(shù)據(jù)壓縮以及管理訪問控制。這些外部系統(tǒng)不僅成本高昂和復(fù)雜,同時(shí)還需要專業(yè)的團(tuán)隊(duì)來維護(hù),占用了企業(yè)諸多寶貴資源。
Amazon S3 Tables專為管理數(shù)據(jù)湖中的Apache Iceberg表構(gòu)建。Amazon S3 Tables專門針對(duì)分析工作負(fù)載進(jìn)行優(yōu)化,與通用Amazon S3存儲(chǔ)桶相比,提供了高達(dá)3倍的查詢性能和10倍的每秒事務(wù)處理量(TPS)。Amazon S3 Tables能夠自動(dòng)管理表維護(hù)任務(wù),包括為更好的查詢性能而進(jìn)行的壓縮,以及快照管理,隨著客戶數(shù)據(jù)湖的不斷擴(kuò)展和演進(jìn),實(shí)現(xiàn)對(duì)查詢性能和存儲(chǔ)成本進(jìn)行的持續(xù)優(yōu)化??蛻魞H需創(chuàng)建一個(gè)表存儲(chǔ)桶,即可使用S3 Tables優(yōu)化存儲(chǔ)和查詢完全托管的Iceberg表中的數(shù)據(jù)。借助Amazon S3 Tables,客戶可受益于Iceberg的諸多功能,如行級(jí)事務(wù)處理、通過時(shí)間旅行功能查詢快照以及模式演進(jìn)等。此外,Amazon S3 Tables還提供了表級(jí)訪問控制,讓客戶精準(zhǔn)能夠定義數(shù)據(jù)訪問權(quán)限。
Genesys是全球領(lǐng)先的AI驅(qū)動(dòng)體驗(yàn)編排服務(wù)商,正計(jì)劃使用Amazon S3構(gòu)建數(shù)據(jù)湖。借助Amazon S3 Tables對(duì)托管Iceberg的支持,Genesys希望為其多元化的數(shù)據(jù)分析需求構(gòu)建一個(gè)材料化視圖層。Amazon S3 Tables內(nèi)置對(duì)Iceberg表的支持將極大簡化復(fù)雜的數(shù)據(jù)工作流程,通過自動(dòng)執(zhí)行關(guān)鍵維護(hù)任務(wù),如表壓縮、快照管理以及未引用文件的清理等。Genesys期待能從兼容Iceberg的分析工具中獲得性能提升和廣泛支持,這些工具可直接從Amazon S3中讀寫Iceberg表。Amazon S3 Tables將成為Genesys未來數(shù)據(jù)戰(zhàn)略的基石,幫助Genesys提供更快、更靈活、更可靠的數(shù)據(jù)洞察,以支持其AI驅(qū)動(dòng)的客戶和員工體驗(yàn)解決方案。
Amazon S3元數(shù)據(jù):更輕松、快捷地探索和理解Amazon S3中的數(shù)據(jù)
隨著越來越多的客戶將Amazon S3作為其中央數(shù)據(jù)存儲(chǔ)庫,數(shù)據(jù)量與數(shù)據(jù)種類呈指數(shù)級(jí)增長。元數(shù)據(jù)作為理解和組織海量數(shù)據(jù)的一種方式變得越來越重要,以便客戶能夠找到他們所需的確切對(duì)象。為有效應(yīng)對(duì)這一挑戰(zhàn),許多客戶不得不構(gòu)建并維護(hù)復(fù)雜的元數(shù)據(jù)獲取與存儲(chǔ)系統(tǒng),來深化他們對(duì)數(shù)據(jù)的認(rèn)知。但這些元數(shù)據(jù)系統(tǒng)不但成本高昂、耗時(shí),而且資源密集,通常需要數(shù)據(jù)工程師在元數(shù)據(jù)流經(jīng)處理管道時(shí),手動(dòng)跟蹤和更新元數(shù)據(jù);同時(shí),還要求數(shù)據(jù)分析師手動(dòng)遍歷海量的對(duì)象存儲(chǔ),以找到用于分析和AI/ML數(shù)據(jù)處理工作流所需的特定數(shù)據(jù)。
Amazon S3 Metadata能夠近乎實(shí)時(shí)地自動(dòng)生成可查詢的對(duì)象元數(shù)據(jù),從而加速數(shù)據(jù)發(fā)現(xiàn)并提升數(shù)據(jù)理解能力,幫助客戶消除構(gòu)建和維護(hù)復(fù)雜元數(shù)據(jù)系統(tǒng)的負(fù)擔(dān)。借助Amazon S3 Metadata,客戶可以查詢、發(fā)現(xiàn)并使用數(shù)據(jù),以支持業(yè)務(wù)分析、實(shí)時(shí)推理應(yīng)用等。Amazon S3 Metadata能夠自動(dòng)生成對(duì)象元數(shù)據(jù),包括系統(tǒng)定義的詳情,如對(duì)象的大小和來源,并可通過新的Amazon S3 Tables進(jìn)行查詢。隨著對(duì)象的增加或刪除,Amazon S3 Metadata會(huì)實(shí)時(shí)更新Amazon S3 Tables中的對(duì)象元數(shù)據(jù),確??蛻臬@得最新的數(shù)據(jù)視圖??蛻暨€可以使用對(duì)象標(biāo)簽添加自定義元數(shù)據(jù),為對(duì)象注釋特定的業(yè)務(wù)信息,如產(chǎn)品SKU、交易ID、內(nèi)容評(píng)級(jí)或客戶詳細(xì)信息??蛻暨€可以通過簡單的SQL查詢輕松檢索元數(shù)據(jù),快速查找和準(zhǔn)備數(shù)據(jù),以支持業(yè)務(wù)分析、實(shí)時(shí)推理應(yīng)用、基礎(chǔ)模型微調(diào)、檢索增強(qiáng)生成(RAG)、數(shù)據(jù)倉庫與分析工作流集成,以及執(zhí)行有針對(duì)性的存儲(chǔ)優(yōu)化任務(wù)等。
各種規(guī)模的企業(yè)都將受益于Amazon S3 Metadata的數(shù)據(jù)發(fā)現(xiàn)和理解。領(lǐng)先的生物技術(shù)公司羅氏(Roche),計(jì)劃借助Amazon S3 Metadata加速其未來生成式AI計(jì)劃。隨著羅氏對(duì)先進(jìn)大型語言模型(LLM)應(yīng)用的開發(fā),如復(fù)雜的內(nèi)部聊天機(jī)器人,羅氏預(yù)計(jì)其用于檢索增強(qiáng)生成(RAG)的非結(jié)構(gòu)化數(shù)據(jù)量將面臨成倍增長。Amazon S3 Metadata將簡化可擴(kuò)展元數(shù)據(jù)系統(tǒng)的構(gòu)建,自動(dòng)為新數(shù)據(jù)的攝入生成并更新元數(shù)據(jù)。Roche期望通過定制的Lambda函數(shù)提取復(fù)雜的、特定于業(yè)務(wù)的元數(shù)據(jù),并將其與Amazon S3 Metadata無縫集成到綜合Amazon Glue目錄中。這將讓企業(yè)更有效率,并快速識(shí)別可為前沿AI應(yīng)用提供支持的相關(guān)數(shù)據(jù)集,讓羅氏聚焦于個(gè)性化醫(yī)療領(lǐng)域的突破性創(chuàng)新。
Cambridge Mobile Telematics (CMT) 是全球最大的遠(yuǎn)程信息處理服務(wù)提供商。該公司從設(shè)備收集傳感器數(shù)據(jù),并使用上下文數(shù)據(jù)對(duì)其進(jìn)行增強(qiáng),從而創(chuàng)建車輛與駕駛員行為統(tǒng)一的視圖,供汽車保險(xiǎn)公司、汽車制造商、商業(yè)移動(dòng)公司以及公共部門用于支持風(fēng)險(xiǎn)評(píng)估、安全、理賠和駕駛員改進(jìn)計(jì)劃。CMT存儲(chǔ)并分析來自全球數(shù)百萬物聯(lián)網(wǎng)設(shè)備的多PB級(jí)數(shù)據(jù)。隨著公司規(guī)模的擴(kuò)大,為提出新見解和開發(fā)新模型而定位特定數(shù)據(jù)變得越來越有挑戰(zhàn)性。借助Amazon S3 Metadata(包括系統(tǒng)元數(shù)據(jù)和自定義元數(shù)據(jù)),CMT能夠查詢PB級(jí)元數(shù)據(jù),使查找相關(guān)數(shù)據(jù)變得簡單且經(jīng)濟(jì)高效。
Amazon S3 Tables現(xiàn)已正式可用,Amazon S3 Metadata現(xiàn)推出預(yù)覽版。Amazon S3 Tables與Amazon Glue Data Catalog集成現(xiàn)已預(yù)覽可用,客戶可使用亞馬遜云科技的分析服務(wù)(如Amazon Athena、Amazon Redshift、Amazon EMR 和Amazon QuickSight)對(duì)包括Amazon S3 Metadata Tables在內(nèi)的數(shù)據(jù)進(jìn)行查詢和可視化操作。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
91文章
40200瀏覽量
301826 -
對(duì)象存儲(chǔ)
+關(guān)注
關(guān)注
0文章
69瀏覽量
12477 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2732瀏覽量
85830
發(fā)布評(píng)論請(qǐng)先 登錄
亞馬遜云科技推出兩項(xiàng)Amazon Lambda新功能 進(jìn)一步應(yīng)對(duì)復(fù)雜應(yīng)用場(chǎng)景
亞馬遜云科技Amazon S3重磅更新 引領(lǐng)企業(yè)云存儲(chǔ)未來方向
亞馬遜云科技擴(kuò)展模型選擇 Amazon Bedrock新增18款開放權(quán)重模型
亞馬遜云科技推出全新的Amazon AI Factories 將客戶現(xiàn)有基礎(chǔ)設(shè)施轉(zhuǎn)化為高性能AI環(huán)境
Amazon Connect發(fā)布多項(xiàng)Agentic AI新功能 打造無縫客戶體驗(yàn)
亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型
亞馬遜云科技Amazon Bedrock AgentCore正式可用,引領(lǐng)Agent走向全面落地
亞馬遜云科技推出Amazon Quick Suite,引領(lǐng)Agentic AI驅(qū)動(dòng)的工作新范式
亞馬遜云科技在中國區(qū)域推出Amazon Graviton4實(shí)例 以自研芯片驅(qū)動(dòng)企業(yè)算力升級(jí)
亞馬遜云科技推出Amazon DocumentDB Serverless,簡化數(shù)據(jù)庫管理并大幅節(jié)省成本
亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型
亞馬遜云科技推出Amazon Nova Act SDK預(yù)覽版,加速瀏覽器自動(dòng)化Agent落地
NVIDIA Dynamo新增對(duì)亞馬遜云科技服務(wù)的支持
亞馬遜云科技在2025紐約峰會(huì)發(fā)布多項(xiàng)AI agent創(chuàng)新
亞馬遜功能最強(qiáng)模型Amazon Nova Premier現(xiàn)已正式可用
亞馬遜云科技推出Amazon S3新功能
評(píng)論