91麻豆网站一级a片免,超碰亚洲日本黄色AA,无码国产精品一区二区高潮久久4

來源：由半導體行業(yè)觀察編譯自semiengineering

研究人員專注于限制數據移動以減少邊緣設備的功耗和延遲。在大眾媒體中，“人工智能”通常意味著在昂貴且耗電的數據中心運行的大型語言模型。然而，對于許多應用程序來說，在本地硬件上運行的小型模型更為合適。自動駕駛汽車需要實時響應，避免數據傳輸延遲。醫(yī)療和工業(yè)應用通常依賴于無法與第三方共享的敏感數據。盡管邊緣人工智能應用速度更快、更安全，但它們的計算資源卻非常有限。它們無法擁有 TB 級的內存空間或幾乎無限的計算能力。對于數據中心來說，這些限制可能有些抽象，但卻對邊緣人工智能施加了嚴格的限制。在2025年IEEE國際內存研討會的一篇受邀論文及其后續(xù)預印本中，蘇黎世聯邦理工學院計算機科學教授Onur Mutlu及其同事指出，在典型的移動工作負載中，數據在內存中的移動占總能耗的62%，這一比例令人震驚。內存是硬件資源的最大消耗者，而且遙遙領先，但內存延遲往往是執(zhí)行時間的最大貢獻者。多年來，器件規(guī)模的擴大一直是降低功耗的關鍵，但現在卻使問題更加嚴重。Mutlu 表示，規(guī)模龐大的 DRAM 穩(wěn)定性較差，需要更頻繁的刷新周期。大型內存陣列的訪問難度也更大，因為帶寬的增長速度不如內存條本身的增長速度快。內存和近內存計算提供了可能的解決方案。即使是商用的現成 DRAM，只要軟件基礎設施支持，也可以執(zhí)行原始的數據復制、初始化和按位邏輯運算。

混合解決方案結合了RRAM和鐵電體

然而，DRAM刷新功率的問題仍然存在。在神經網絡模型中，訓練和推理任務都會重復使用存儲的權重矩陣。然而，兩者的要求卻截然不同。正如 CEA-Leti 的 Michele Martemucci 及其同事所解釋的那樣，訓練任務涉及對權重矩陣進行多次小幅更新，使其逐漸收斂到穩(wěn)定值。這些任務需要具有高寫入耐久性和存儲精確值能力的內存。相比之下，推理任務使用穩(wěn)定不變的權重矩陣，但可能會將其多次應用于輸入數據。推理任務受益于具有高讀取耐久性的非易失性存儲器。在這兩種情況下，近內存計算都需要與標準 CMOS 邏輯工藝兼容的設備。RRAM 是一種簡單的器件，依靠氧化層中形成的導電細絲來實現極高的讀取耐久性。通過精心設計的編程方案，它們可以存儲模擬值，從而減小存儲器陣列的大小。Martemucci 表示，RRAM 技術已經足夠成熟，可以在邊緣推理場景中進行商業(yè)部署。遺憾的是，RRAM 的寫入耐久性相對較低。隨著時間的推移，編程脈沖會模糊存儲值之間的電阻差異。設計人員通常使用傳統(tǒng)硬件訓練模型，然后將預先計算的權重加載到 RRAM 陣列中。然而，在許多應用中，邊緣設備需要具備“學習”能力。它要么需要根據用戶的特定需求進行訓練，要么需要修改模型以反映實際流程的變化。與此同時，鐵電電容器支持非常快速的開關和極高的寫入耐久性。它們可以輕松承受訓練任務中遇到的頻繁寫入操作。然而，雖然存儲的值是非易失性的，但讀取操作卻具有破壞性。Martemucci 表示，這些設備不適合長期存儲權重矩陣，也不適合需要頻繁讀取操作的推理任務。將鐵電晶體管集成到CMOS工藝中非常復雜，需要高溫工藝和額外的掩模層。鐵電電容器和隧道結則簡單得多，這使得多個研究小組能夠將RRAM和鐵電結構結合起來。例如，在今年的VLSI技術研討會上，SK海力士的研究人員展示了一種兼具電阻和鐵電開關功能的混合鐵電隧道結（FTJ）。在傳統(tǒng)的FTJ中，頂部和底部電極之間的隧道勢壘取決于鐵電極性。SK海力士的器件將鐵電鉿鋯氧化物（HZO）層夾在兩個電極之間，鉭層用作氧空位儲存器。鉭層附近的導電細絲在器件頂部提供歐姆導電，從而降低了鐵電隧道勢壘的有效厚度。這些器件實現了精確的模擬乘法累加運算，效率高達每瓦224.4萬億次運算（TOPS/W）。在另一種混合方法中，Martemucci 團隊將摻雜硅的 HfO2電容器與鈦氧清除層結合到標準 CMOS BEOL 工藝中。這些器件最初表現為鐵電電容器，其中一些器件接收一次性“喚醒”脈沖以穩(wěn)定鐵電響應。同時，電容器陣列的另一部分經過一次性“成型”工藝，形成由氧空位構成的導電細絲。鈦層充當氧空位儲存器，防止細絲溶解。由此產生的憶阻器器件可以在高阻和低阻狀態(tài)之間切換。圖 1：金屬-鐵電-金屬疊層既可以用作 FeCAP，也可以用作憶阻器鐵電電容器充當二進制元件，存儲用于訓練計算的高精度權重。憶阻器存儲的模擬權重精度足以應對推理任務。在訓練過程中，憶阻器陣列每完成100個輸入步驟后更新一次，而鐵電陣列則持續(xù)更新。訓練此結構進行標準數字識別任務所需的寫入操作總數比憶阻器耐久性小17倍，比鐵電電容器耐久性小75倍，而能耗比持續(xù)更新憶阻器陣列所需能耗低38倍。

人工智能不僅僅是神經網絡內存計算不僅可以提高傳統(tǒng)神經網絡計算的能效，還能促進其他建模方法的發(fā)展。例如，許多計算難度高的問題可以建模為伊辛玻璃，即一組連接的節(jié)點共同演化到最低能量狀態(tài)。[ ? 4] 現實世界中，這類問題可能涉及數千甚至數百萬個連接。解決伊辛玻璃問題是量子計算最引人入勝的潛在應用之一。更傳統(tǒng)的方法是，在去年的IEEE電子設備會議上，德克薩斯大學研究員Tanvir Haider Pantha和他的同事們提出構建一個三維結構，將FeFET融入CMOS邏輯工藝的BEOL（后道工藝）。每個節(jié)點由四個交叉耦合的FeFET組成，可以存儲一個有符號的模擬值，該值映射到待解決問題的伊辛耦合矩陣。每個節(jié)點的輸出是其相鄰節(jié)點的輸入，從而在整個網絡中建立振蕩，最終達到穩(wěn)定的最小能量配置。圖 2：四個交叉耦合雙柵 FeFET 構成相變納米振蕩器。提出的伊辛玻璃模型每個節(jié)點使用其中一種結構

內存計算需要新框架傳統(tǒng)的 CPU 和 GPU 是通用設備。只需更改軟件即可應用于許多不同的問題。近內存和內存加速器目前與其預期任務密不可分。伊辛玻璃求解器、點云網絡和圖像識別網絡將以不同的方式處理數據，需要不同的硬件設計。據 Mutlu 稱，內存計算的下一步將需要能夠重新映射內存訪問以滿足特定問題要求的軟件框架。反過來，這些框架將需要能夠獨立于外部內存控制器進行自我管理的內存硬件。

原文鏈接https://semiengineering.com/why-in-memory-computation-is-so-important-for-edge-ai/

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴