黄色网止在线观看,免费日本多人做人爱视频,三级国产av日韩精品在线看

上線僅2個月，OpenAI的最新一代產品-AI聊天機器人ChatGPT月活用戶接近1億。

作為自然語言處理（NLP）領域的前沿研究成果之一，ChatGPT已成為AIGC里程碑式的產品。

這周我們也與ChatGPT聊了聊他/她對大規(guī)模預訓練背后所需資源的看法。

讓我們一起來看看ChatGPT的回答是否能讓你滿意呢？

強大的語言生成能力現(xiàn)在引起更多討論的是規(guī)模預訓練。在過去的很長一段時間里，許多的AI廠商都是通過本地設備來進行訓練的。

GPT-3所訓練的參數(shù)約為1750億個，這部分需要大量的算力，而目前我們已知ChatGPT導入了至少1萬顆英偉達高端GPU來訓練模型。

業(yè)界部分專家認為GPT-4訓練參數(shù)可能會達到100萬億個參數(shù)，如此大規(guī)模、長時間的GPU集群訓練任務，也對網絡互聯(lián)底座的性能、可靠性、成本等各方面都提出了極致的要求。

面對千億、萬億參數(shù)規(guī)模的大模型訓練，僅僅是單次計算迭代內梯度同步需要的通信量就高達TB量級。此外還有各種并行模式、加速框架引入的通信需求，使得傳統(tǒng)低速網絡的帶寬遠遠無法支撐GPU集群的高效計算，甚至成為了其中關鍵的瓶頸。

因此要充分發(fā)揮GPU計算資源的強大算力，必須構建一個全新的高性能網絡底座，用高速網絡的大帶寬來助推整個集群計算的高效率。

以CPU+GPU的異構計算模型已經成為高性能計算領域中的主流計算架構。而高吞吐、低延時是高性能計算場景中最為迫切的應用需求。

我們可以知道，GPUDirect RDMA是RDMA在異構計算場景中的應用延伸，使得GPU之間的通信不在依賴CPU轉發(fā)，從而進一步提升高性能計算場景中整體算力。

從DPU芯片的實現(xiàn)角度看，不同DPU廠商的核心競爭壁壘在于專用加速引擎的硬件實現(xiàn)上。由于DPU是數(shù)據(jù)中心中所有服務器的流量入口，并以處理報文的方式處理數(shù)據(jù)，在網絡芯片領域積累更多的廠商將更有優(yōu)勢。

傳統(tǒng)的GPU在訪問存儲時，需要將數(shù)據(jù)先搬移到系統(tǒng)內存，再由系統(tǒng)內存搬移到目標設備。而采用DPU介入后可以繞過CPU，直接通過PCIe訪問遠端的NVMe設備，加速AI訓練，大大降低CPU的開銷。

在AI/ML領域的工作負載對于存儲系統(tǒng)的要求十分苛刻，目前此類應用已主要采用全閃存存儲，其中NVMe全閃存逐漸成為主流趨勢。同時存儲與前端應用主機的網絡存儲協(xié)議開始采用NVMe over Fabrics(NVMe-oF)。

NVMe-oF是一種存儲網絡協(xié)議，通過網絡將NVMe命令傳送到遠程NVMe子系統(tǒng)，以利用NVMe 全閃存的并行訪問和低延遲，該規(guī)范定義了一個協(xié)議接口，旨在與高性能fabric技術配合使用，包括通過實現(xiàn)RDMA技術的InfiniBand、RoCE v2、iWARP或TCP。

NVMe-oF是一種使用NVMe協(xié)議將訪問擴展到遠程存儲系統(tǒng)的非易失性存儲器（NVM）設備的方法。這使得前端接口能夠連接到存儲系統(tǒng)中，擴展到大量NVMe設備，并延長數(shù)據(jù)中心內可以訪問NVMe子系統(tǒng)的距離。NVMe-oF的目標是顯著改善數(shù)據(jù)中心網絡延遲，并為遠程NVMe設備提供近似于本地訪問的延遲，目標為10us。

我們知道AI對計算的需求非常大，目前主流的AI加速還是以GPU、FPGA和一些專門的AI芯片等為主。在GPU、AI芯片用于AI計算之前都是CPU承擔計算的任務，CPU的效率難以滿足需求，從而產生CPU+GPU+ASIC的異構計算。隨著DPU的出現(xiàn)，這種異構計算的發(fā)展更加徹底，可以更大提供并行處理能力，適合大規(guī)模計算的發(fā)展。

支持Chiplet技術的超異構算力芯片，伴隨著AI/ML的發(fā)展將會得到更好的應用，而支持Die-To-Die互聯(lián)技術將能夠提供互聯(lián)其他AI芯片和算力單元的巨大能力，擺脫一直以來PCIe發(fā)展的限制。 ??拿芯啟源自身舉例，以支持高級AI為主要目標之一的芯啟源最新的DPU芯片，其架構中就應用Chiplet技術。不僅提升了自有智能網卡的性能，通過支持與第三方芯片的Die-To-Die互聯(lián)，還可以集成更多的特定專業(yè)領域的芯片，比如AI訓練中的GPU芯片。

雖然PCIe非常的標準，但是帶寬非常有限的，PCIe Gen3的理論帶寬是32GB/s，PCIe Gen4的理論帶寬是64GB/s，而實測帶寬大概分別是24GB/s和48GB/s。

在AI訓練中，每完成一輪計算，都要同步更新一次參數(shù)，也就是權系數(shù)。模型規(guī)模越大，參數(shù)規(guī)模一般也會更大，這樣算力芯片的效率會收到PCIe架構的限制，支持更高能力層次的互聯(lián)技術講徹底解決帶寬限制和瓶頸，極大提升單節(jié)點計算效率。

和ChatGPT聊了那么多，最后再讓我們來看看他/她對于DPU應用了解多少呢？

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
40246

瀏覽量
301854
DPU

DPU

+關注

關注
0

文章
415

瀏覽量
27075
chiplet

chiplet

+關注

關注
6

文章
496

瀏覽量
13622

原文標題：爆紅智能AI如何看待DPU ChatGPT這樣說

文章出處：【微信號：corigine，微信公眾號：芯啟源】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

爆紅智能AI如何看待DPU

評論