如今,數(shù)據(jù)的生成速度遠(yuǎn)遠(yuǎn)超出了任何人的想象。過去,人類是數(shù)據(jù)生成的主要來源?,F(xiàn)在,存在以多種方式和格式生成數(shù)據(jù)的圖像設(shè)備,傳感器,無人機,聯(lián)網(wǎng)汽車,IoT設(shè)備和工業(yè)設(shè)備。但是,我們不應(yīng)將數(shù)據(jù)與信息混淆-區(qū)分這兩個術(shù)語至關(guān)重要。
當(dāng)前,只有一小部分收集的數(shù)據(jù)有價值,足以被視為真實資產(chǎn)。拍攝成像設(shè)備。這里一分鐘的相關(guān)活動很重要,而不是長時間的無關(guān)緊要的無關(guān)緊要的視頻鏡頭。通過類推,“數(shù)據(jù)”是人們在挖掘“信息”的金塊的礦場。將這些數(shù)據(jù)轉(zhuǎn)化為有價值的信息的能力(如果需要的話,可以稱為“挖掘”)稱為“分析”。

圖12009年至2020年數(shù)據(jù)存儲需求的增長
由分析公司Statista編制的圖1中的圖表描述了過去十年中存儲數(shù)據(jù)容量的驚人增長。它預(yù)測,到2020年,存儲需求將超過42,000 EB。但是,大多數(shù)存儲的數(shù)據(jù)(大多數(shù)估計表明至少有80%)仍處于完全非結(jié)構(gòu)化的形式,這在將其用于分析目的時會遇到困難。估計只有5%的存儲數(shù)據(jù)實際在分析中。如果我們可以用一種元數(shù)據(jù)來表示這種非結(jié)構(gòu)化數(shù)據(jù),該元數(shù)據(jù)可以在完成分析的情況下有效地描述它,那么可以分析大量數(shù)據(jù)。這顯著增加了組織可以從其擁有的數(shù)據(jù)中產(chǎn)生的價值。
人工智能(AI)是一項將對現(xiàn)代社會的各個方面產(chǎn)生重大影響的技術(shù)。這包括電子商務(wù)建議,自然語言翻譯,金融科技,安全性,對象識別/檢測等領(lǐng)域,甚至包括可以迅速查明威脅生命的癌細(xì)胞(或其他異常情況)的醫(yī)學(xué)領(lǐng)域。盡管它們具有多樣性,但所有這些用例都有一個共同的線索,因為我們現(xiàn)在擁有一種可以有效掃描大量非結(jié)構(gòu)化數(shù)據(jù)(視頻,文本,語音,圖像等)并對其進行處理以實現(xiàn)真正價值的技術(shù)??梢缘贸觥?/p>
具體而言,我們不僅可以將AI用于分析過程本身,還可以將AI用于預(yù)處理原始非結(jié)構(gòu)化數(shù)據(jù),以為其提供帶標(biāo)簽的元數(shù)據(jù),從而可以以一種簡單而精確的方式表示它。該簡化的數(shù)據(jù)庫可以通過上層分析軟件進行分析,并從中收集有用的信息。組織一直在等待AI從存儲的數(shù)據(jù)中獲取更多信息,直到這一階段,人工智能一直處于“黑暗”狀態(tài)。
好的,所以我們想生成元數(shù)據(jù)以使我們的分析軟件更有效地運行,并且我們擁有AI作為從龐大的非結(jié)構(gòu)化數(shù)據(jù)庫中創(chuàng)建該元數(shù)據(jù)數(shù)據(jù)庫的工具?,F(xiàn)在,我們只需要將這些海量數(shù)據(jù)帶到我們的AI計算實體即可完成工作。但是,等等,這是正確的方法嗎?真的嗎?
如果我們看一下當(dāng)今生成和存儲數(shù)據(jù)的兩個主要地方,即云和邊緣,那么很快就會發(fā)現(xiàn),移動大量數(shù)據(jù)非常昂貴,應(yīng)該避免。在云中,通過數(shù)據(jù)中心路由所有這些數(shù)據(jù)將給組成的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)帶來壓力,消耗大量電能,并增加延遲級別(從而增加總體處理時間)。相反,在邊緣,可用的計算和功能資源有限。那里的小型設(shè)備有限的網(wǎng)絡(luò)功能將使將大量數(shù)據(jù)上傳到云進行處理是不切實際的。在這兩種情況下,最大限度地減少我們移動的數(shù)據(jù)量,轉(zhuǎn)而依賴元數(shù)據(jù)是最大化運營效率的關(guān)鍵。
如果可以在源頭(即數(shù)據(jù)位于存儲設(shè)備本身內(nèi)部的位置)完成元數(shù)據(jù)的分配,而不是四處移動數(shù)據(jù),那將更加有效。固態(tài)驅(qū)動器(SSD)已經(jīng)包括用作計算實體所需的基本元素。這些通常僅用于驅(qū)動器操作,但是可以將它們重新用于執(zhí)行與功能有關(guān)的任務(wù),并負(fù)責(zé)此標(biāo)記工作,或者通過集成的硬件/軟件/固件模塊進行補充以承擔(dān)此類功能。一種操作模式可能是使用驅(qū)動器的空閑窗口來執(zhí)行后臺映射任務(wù)。一種不同的方法可能是在將數(shù)據(jù)寫入驅(qū)動器時對其進行處理。這兩種操作模式各有其優(yōu)缺點,并且可能適用于不同的用例。
例如,在將數(shù)據(jù)寫入驅(qū)動器時對其進行分析可能對生成警報非常有用。如果您考慮使用監(jiān)視系統(tǒng),那么這種能夠在存儲時掃描數(shù)據(jù)的邏輯可以補充攝像機能夠生成(例如運動)并進一步識別重要事件(例如可疑行為)的警報?;蛉藛T)并建議安全控制。同時,就“數(shù)據(jù)接觸”而言,這將是最有效的方法,因為這意味著數(shù)據(jù)進入后僅需接觸和處理一次。
但是,在許多情況下,這也意味著要使用更強大的CPU和AI引擎,以便在可能是高分辨率視頻的流上提供實時結(jié)果。在像SSD那樣對成本和功耗非常敏感的環(huán)境中,這可能會成為一個問題。同時,當(dāng)系統(tǒng)對驅(qū)動器進行讀寫操作時,這種在線分析將與其他與驅(qū)動器相關(guān)的操作競爭,因為這兩個功能都可能爭奪驅(qū)動器的相同計算和內(nèi)存資源。
為了更好地控制AI處理能力與SSD的成本/功耗/區(qū)域限制之間的權(quán)衡,可能值得考慮使用離線處理方法。使用這種方法可以使我們與所需的AI資源的多余功率和面積交換處理速度(一個度量標(biāo)準(zhǔn)示例可以是TOPS / Watt / mm2)。因此,我們可以選擇使用較小的,性能較差的AI推理引擎來延長掃描數(shù)據(jù)所需的時間,并最大程度地降低總體功耗,或者選擇相反的方法。該方法還可以消除與驅(qū)動器之間的其他讀/寫操作的沖突,因為它可能僅在驅(qū)動器的識別的空閑時間完成。
它支持的另一件事是,一旦可用,就可以根據(jù)新模型對數(shù)據(jù)進行重新處理。例如,如果使用能夠識別動物的模型對數(shù)據(jù)進行了一次掃描,則以后可以使用能夠識別對象的新繼承模型對數(shù)據(jù)進行重新掃描,并相應(yīng)地更新元數(shù)據(jù)數(shù)據(jù)庫。
在這兩種使用模式中,節(jié)電和節(jié)省成本,以及最小化數(shù)據(jù)移動和顯著減少延遲,再加上較低的總體網(wǎng)絡(luò)流量,僅是在存儲點部署這種加速(如果應(yīng)用)所能獲得的部分好處。正確的用例。這種方法固有的可擴展性將意味著企業(yè)和云服務(wù)提供商可以通過利用AI的力量來擴展其功能范圍。
數(shù)據(jù)與主機之間的距離越遠(yuǎn),這種架構(gòu)的潛力就越大,并且利用多個驅(qū)動器可以完成更多的并行性。下圖說明了該架構(gòu)在延遲(完成視頻數(shù)據(jù)庫的完整掃描和標(biāo)記所需的總時間),功耗和網(wǎng)絡(luò)利用率方面的潛力。它顯示了一個全閃存陣列盒與一個普通服務(wù)器處理器之間的比較,該陣列盒由24個固態(tài)硬盤組成,每個固態(tài)硬盤內(nèi)部具有AI推理引擎。在這兩種情況下,計算資源都會從每個SSD中獲取視頻文件庫,并使用AI預(yù)訓(xùn)練模型對它們進行分析以查看特定對象的外觀,并將其標(biāo)記為元數(shù)據(jù)數(shù)據(jù)庫。

圖2在分析數(shù)據(jù)時,存儲中處理降低了網(wǎng)絡(luò)利用率。
從圖2中可以看出,由于所有計算都是在本地完成的,并且不會超出驅(qū)動器的邊界,因此存儲中處理降低了網(wǎng)絡(luò)利用率。圖3顯示存儲中處理還可以縮短等待時間,因為該處理在所有驅(qū)動器上并行進行,并且沒有數(shù)據(jù)路由。其他好處包括更低的功耗,當(dāng)然還有更低的主機利用率,這使主機可以執(zhí)行其他任務(wù)。盡管這些結(jié)果高度依賴于特定的引擎功能,視頻文件類型,網(wǎng)絡(luò)延遲和其他次要因素,并且在其他設(shè)置上可能會有所不同,但結(jié)果趨勢可能會保持下去。

圖3存儲中處理減少了由于并行性引起的等待時間。
這種方法的另一個重要優(yōu)點是它實現(xiàn)了線性可伸縮性。隨著數(shù)據(jù)庫的增長以及需要添加更多SSD來容納更多數(shù)據(jù)的需求,我們同時添加了在感興趣的上下文中處理它所需的“精確”計算量,因此性能與數(shù)據(jù)庫之間的關(guān)系尺寸圖保持線性。在主機處理器上執(zhí)行相同的操作,有時會基于處理器的強大程度,最終得到一個圖表,該圖表在處理器周期用盡時已趨于平坦。

圖4可伸縮性是使用AI進行存儲內(nèi)計算的另一個好處。
在8月于圣塔克拉拉(Santa Clara)舉行的閃存峰會上,Marvell揭開了AI SSD控制器概念驗證(PoC)的角色,說明了如何有效執(zhí)行數(shù)據(jù)標(biāo)記而無需訪問主機CPU處理資源-避免了成本和延遲已概述的問題。向與會者展示了如何與開源NVIDIA深度學(xué)習(xí)加速器(NVDLA)技術(shù)一起使用現(xiàn)成的Marvell數(shù)據(jù)中心和客戶端SSD控制器IC??梢岳^承經(jīng)過培訓(xùn)的AI模型,將其編譯到集成的AI推理IP上,并掃描驅(qū)動器本地存儲的大型非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(例如,視頻庫)。由此,可以生成標(biāo)簽,并且創(chuàng)建元數(shù)據(jù)數(shù)據(jù)庫以方便地在搜索的上下文中表示數(shù)據(jù)。上面顯示的結(jié)果基于作為此PoC一部分開發(fā)的演示Marvell。
如果目標(biāo)是檢測和識別對象或場景,則AI推理引擎可以掃描存儲在驅(qū)動器上的視頻文件,并創(chuàng)建元數(shù)據(jù)來列出它們出現(xiàn)在視頻中的時間。得益于這項新的AI增強存儲技術(shù),元數(shù)據(jù)數(shù)據(jù)庫可以本地存儲在SSD上,并可供分析軟件根據(jù)需要進行檢查。
以一家執(zhí)法機構(gòu)為例,該機構(gòu)在無數(shù)小時的視頻文件中尋找可疑的“東西”。他們可以加載經(jīng)過訓(xùn)練的模型,該模型確切地知道如何識別這種“事物”,并作為對存儲它的所有驅(qū)動器的后臺任務(wù),并行地對所有可用視頻內(nèi)容進行推理。這種“事物”的任何外觀都會被標(biāo)記和標(biāo)記,這使得以后進行進一步分析變得非常容易。
同樣,請考慮這種體系結(jié)構(gòu)對諸如后臺聊天機器人分析之類的工具可能有多有效,在后臺聊天機器人呼叫中有一個大型數(shù)據(jù)庫,需要對其進行掃描以提高服務(wù)質(zhì)量。可以評估用戶何時對收到的回復(fù)感到滿意/煩惱,或者通話時間是否太長/太短。一旦創(chuàng)建了知道如何跟蹤這些指標(biāo)的AI模型,就可以將它們編譯到AI存儲推理引擎中,并離線掃描調(diào)用。對于諸如視頻點播(VOD)服務(wù)的個性化廣告插入,人員或?qū)ο笏阉髦惖氖虑?,以及利用接近?shù)據(jù)的各種其他IO密集型用例,也可以獲得主要的性能優(yōu)勢。
AI SSD控制器技術(shù)演示了如何實現(xiàn)新的數(shù)據(jù)存儲架構(gòu),以處理不斷涌現(xiàn)的,具有計算挑戰(zhàn)性的“大數(shù)據(jù)”相關(guān)應(yīng)用程序,而無需昂貴的定制IC。通過為市場上已經(jīng)可用的SSD硬件提供使其更智能的附加邏輯的訪問權(quán)限,可以直接處理對于下一代分析工作負(fù)載至關(guān)重要的元數(shù)據(jù)和標(biāo)簽。無需連接到專用的處理資源。
遵循這種替代策略,依靠常規(guī)的集中處理將使整個過程效率更高。它幾乎占用了最小的可用網(wǎng)絡(luò)帶寬,并防止了瓶頸的發(fā)生。通過將AI加速器直接集成到具有成本效益的SSD控制器IC中,可以快速完成分析任務(wù)。它還將需要更少的處理能力,并消耗更少的可用功率預(yù)算,同時完全避免從頭開發(fā)復(fù)雜的ASIC的需求。由于使用了可編程的體系結(jié)構(gòu),因此也將提供足夠的更新更新所采用的AI模型的方法,以便在新的用例開發(fā)時就可以對其進行處理。
Noam Mizrahi是Marvell研究員,也是Marvell CTO辦公室技術(shù)與建筑副總裁。
編輯:hfy
-
傳感器
+關(guān)注
關(guān)注
2577文章
55344瀏覽量
793257
發(fā)布評論請先 登錄
AI數(shù)據(jù)周期存儲破局者:企業(yè)級SSD激活千億級市場
AI賦能邊緣網(wǎng)關(guān):開啟智能時代的新藍(lán)海
AI 邊緣計算網(wǎng)關(guān):開啟智能新時代的鑰匙?—龍興物聯(lián)
硬件幫助將AI移動到邊緣
EdgeBoard FZ5 邊緣AI計算盒及計算卡
【HarmonyOS HiSpark AI Camera】邊緣計算安全監(jiān)控系統(tǒng)
一文了解邊緣計算和邊緣AI 精選資料分享
開箱啦!帶你玩轉(zhuǎn)飛凌高算力“魔盒”——AI邊緣計算終端FCU3001
嵌入式邊緣AI應(yīng)用開發(fā)指南
ST MCU邊緣AI開發(fā)者云 - STM32Cube.AI
邊緣數(shù)據(jù)影響存儲的五種方式
邊緣AI:可以在無線模塊上運行么?
AI邊緣計算是什么意思?邊緣ai是什么?AI邊緣計算應(yīng)用
AI大模型對數(shù)據(jù)存儲技術(shù)的發(fā)展趨勢
探討了邊緣應(yīng)用AI對數(shù)據(jù)存儲的問題
評論