本土RISC-V CPU IP領(lǐng)軍企業(yè)——芯來科技正式發(fā)布首款針對(duì)人工智能應(yīng)用的專用處理器產(chǎn)品線Nuclei Intelligence(NI)系列,以及NI系列的第一款AI專用RISC-V處理器CPU IP——NI900系列內(nèi)核。
隨著Chatgpt的橫空出世,全球掀起一股AI的浪潮,從云端數(shù)據(jù)中心到邊緣側(cè)對(duì)AI的需求進(jìn)一步提升。AI應(yīng)用主要分布在訓(xùn)練和推理,需要大量的并行計(jì)算和NPU來完成,更離不開高性能CPU的算力加持。CPU有著廣泛的普及性、兼容性、可擴(kuò)展性和可靠性,并通過多核多節(jié)點(diǎn)進(jìn)行串行計(jì)算、混合計(jì)算和安全防護(hù)等復(fù)雜任務(wù);除此之外,CPU的通用矢量(Vector)指令集也可以提供強(qiáng)大且通用的并行計(jì)算能力,在AI領(lǐng)域進(jìn)行高效的并行計(jì)算、前處理、后處理、激活函數(shù)等工作,更加靈活地處理GPU和NPU相對(duì)難以處理的復(fù)雜計(jì)算任務(wù)。
近期OpenAI發(fā)布的Sora模型將AI能夠理解和生成的內(nèi)容模態(tài)從文字和圖片拓展到視頻,進(jìn)一步證明基礎(chǔ)模型能力上限不斷被突破,想象空間被打開,對(duì)算力基礎(chǔ)設(shè)施的需求也遠(yuǎn)沒有停止。芯來科技此次推出的NI900重點(diǎn)布局AI應(yīng)用場景,助力本土芯片設(shè)計(jì)公司快速完成AI產(chǎn)品的設(shè)計(jì)。
NI900基于900系列處理器,針對(duì)“AI應(yīng)用”進(jìn)行了多項(xiàng)特性優(yōu)化
基礎(chǔ)標(biāo)量處理器:
可以配置為900系列的RV32或RV64的任何一款N900、U900、NX900、UX900。
RVV1.0 VPU: 可配置基于RISC-V V Extension(RVV1.0 Vector指令集)的VPU單元,VPU的VLEN可配置為512-bit或者1024-bit。在INT8數(shù)據(jù)類型下對(duì)性能帶來的提升達(dá)數(shù)百倍;在INT32與FP32數(shù)據(jù)類型下對(duì)性能帶來的提升達(dá)數(shù)十倍。 NPU加速器:
可通過NI900的IOCP(IO Coherent Port)與處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性。
用戶自定義指令擴(kuò)展接口: 用戶可以使用Nuclei的NICE硬件擴(kuò)展接口,增加自己自定義的指令,包括Scalar或Vector指令。
NI900支持RISC-VVector1.0標(biāo)準(zhǔn)
矢量擴(kuò)展被稱之為RV指令集標(biāo)準(zhǔn)最重要的一組擴(kuò)展,2015年發(fā)起,2021年正式生成標(biāo)準(zhǔn)。
RVV 1.0支持的數(shù)據(jù)類型廣泛,運(yùn)算類型豐富且可動(dòng)態(tài)擴(kuò)展,同一套指令可無修改適配各種微架構(gòu)實(shí)現(xiàn)。
RISC-V GCC從10.2版本已經(jīng)支持RVV1.0指令,目前GCC13對(duì)應(yīng)的intrinsic API接口已經(jīng)升級(jí)到最新v0.12版本,且已部分支持自動(dòng)向量化;預(yù)計(jì)GCC14正式發(fā)布,GCC的自動(dòng)向量化會(huì)更加完備。RISC-V CLANG17版本也已支持最新v0.12版本intrinsic APl, 支持自動(dòng)向量化。
RISC-V Linux 5.18 版本開始支持RVV,其它各種計(jì)算庫及應(yīng)用中間件都快速支持了RVV1.0。
有了RVV1.0標(biāo)準(zhǔn)和軟件生態(tài)的完備,為應(yīng)對(duì)AI算力的需求,需要RISC-V CPU 在微架構(gòu)設(shè)計(jì)上做更多有針對(duì)性的設(shè)計(jì)。
NI900擁有強(qiáng)大的并行計(jì)算能力
RVV參數(shù)描述:
VLEN:一個(gè)向量寄存器的總bit數(shù)(寬度)
DLEN:內(nèi)部運(yùn)算單元能夠并行處理的一個(gè)向量元素的最大bit數(shù)
ELEN:并行處理的數(shù)據(jù)類型的最大寬度,如果ELEN=32,則最大的處理數(shù)據(jù)類型是INT32和FP32
| 可配選項(xiàng) | 參數(shù)值 |
| VLEN_512 | VLEN=512,DLEN=512,ELEN=32/64 |
| VLEN_1024 | VLEN=1024,DLEN=1024,ELEN=32/64 |
VPU支持的數(shù)據(jù)類型和計(jì)算能力:
1024-bit的VPU支持多種數(shù)據(jù)類型的計(jì)算,包括:INT8 / 16 / 32 / 64, BFP16 / FP16 / FP32 / FP64。
1024-bit的VPU支持每個(gè)時(shí)鐘完成128x8-bit / 64x16-bit / 32x32-bit / 16x64-bit的數(shù)據(jù)計(jì)算
NI900擁有強(qiáng)大的Memory讀寫能力
?
VPU和CoreLSU共享MMU資源
VPU并非獨(dú)立的協(xié)處理器,而是與主Core的內(nèi)存空間實(shí)現(xiàn)完全的Coherent
Vector指令與普通Scalar一樣,支持虛擬地址訪問,使得NI900的Vector指令可以無縫運(yùn)行于大型操作系統(tǒng)之上
VPU和CoreLSU共享Memory資源與通道
VPU擁有最高1024-bit位寬直接訪問DLM
DLM具備1024-bit的SlavePort供SoC訪問
可單獨(dú)配置VLMport以進(jìn)一步增加性能
VLMport可以直接連接到外部加速器或者內(nèi)存
VLMport位寬=VLEN(目前支持最多1024-bit)
ScalarCore也可以通過LoadStore訪問到VLM區(qū)間
NI900的VPU帶來極大的性能提升
通過強(qiáng)大的運(yùn)算能力與強(qiáng)勁的Memory讀寫通道,NI900能帶來極大的并行計(jì)算性能提升。
如圖所示,VLEN=1024-bit的VPU在INT8數(shù)據(jù)類型下對(duì)性能帶來的提升達(dá)數(shù)百倍:

? 
如圖所示,VLEN=1024-bit的VPU在INT32數(shù)據(jù)類型下對(duì)性能帶來的提升達(dá)數(shù)十倍:



如圖所示,VLEN=512-bit的VPU在FP32數(shù)據(jù)類型下對(duì)性能帶來的提升達(dá)數(shù)十倍:




NI900支持NPU等AI加速器與處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性
NI900支持整合外部AI加速器、NPU、PCIe、DMA,通過900系列的IOCP(IO Coherent Port)與900系列處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性。

NI900的Scalar/VectorNICE自定義指令接口提供更多特定場景的優(yōu)化可能性 NICE(Nuclei Instruction Co-unit Extension)是芯來CPU IP的一種用戶可擴(kuò)展指令接口機(jī)制,允許用戶基于芯片的標(biāo)準(zhǔn)通用CPU內(nèi)核定義自己的擴(kuò)展指令集。
NI900提供用于Scalar指令擴(kuò)展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900提供用于Vector指令擴(kuò)展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900的NICE擴(kuò)展單元不僅可以進(jìn)行運(yùn)算型的自定義指令擴(kuò)展,還可以通過專用總線訪問Core的存儲(chǔ)資源(DCache等)實(shí)現(xiàn)與主Core的內(nèi)存一致性,總線位寬可以達(dá)到VLEN(最高1024-bit)
用戶可以結(jié)合自己的應(yīng)用擴(kuò)展自定義指令,將NI900處理器內(nèi)核擴(kuò)展成為面向AI領(lǐng)域進(jìn)一步強(qiáng)化的專用處理器。
RISC-V生態(tài)日益成熟,芯來NI900賦能AI時(shí)代
CPU是算力結(jié)構(gòu)中必不可少的一個(gè)環(huán)節(jié),在已經(jīng)到來的人工智能算力時(shí)代,通用和專用芯片結(jié)合而成的異構(gòu)計(jì)算是未來AI算力基礎(chǔ)設(shè)施的主流。芯來致力于提供標(biāo)量、矢量、以及自定義指令結(jié)合的計(jì)算架構(gòu),以滿足端側(cè)云側(cè)數(shù)據(jù)中心的多元化的算力需求。
目前NI900已經(jīng)獲得多家下游客戶的認(rèn)可并投入產(chǎn)品設(shè)計(jì)中,未來芯來將推出更多NI系列處理器內(nèi)核IP,賦能AI時(shí)代的算力基礎(chǔ)設(shè)施建設(shè)。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
20250瀏覽量
252218 -
人工智能
+關(guān)注
關(guān)注
1817文章
50094瀏覽量
265299 -
RISC-V
+關(guān)注
關(guān)注
48文章
2887瀏覽量
52989 -
AI加速器
+關(guān)注
關(guān)注
1文章
73瀏覽量
9488 -
芯來科技
+關(guān)注
關(guān)注
0文章
78瀏覽量
4066
原文標(biāo)題:芯來科技發(fā)布最新NI系列內(nèi)核,NI900矢量寬度可達(dá)512/1024位
文章出處:【微信號(hào):nucleisys,微信公眾號(hào):芯來科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
探索NXP i.MX 93應(yīng)用處理器家族:高效邊緣計(jì)算的理想之選
探索i.MX 91應(yīng)用處理器家族:為邊緣應(yīng)用帶來新可能
首款商業(yè)航天專用MEMS陀螺儀流片成功
瑞芯微SOC智能視覺AI處理器
兆芯榮獲通用處理器性能測評(píng)基準(zhǔn)工具CPUBench特殊貢獻(xiàn)獎(jiǎng)
在qemu上體驗(yàn)芯來RISC-V處理器運(yùn)行鴻蒙LiteOS-M內(nèi)核
恩智浦推出i.MX 952人工智能應(yīng)用處理器
Andes晶心科技推出AndesCore 46系列處理器家族
方寸之間構(gòu)筑系統(tǒng)級(jí)可靠性,納芯微發(fā)布國產(chǎn)首款高性能 2 線制霍爾開關(guān) MT72xx系列
芯來科技新一代RISC-V高性能處理器IP UX1030H 全面支持RVA23
兆芯處理器近期互認(rèn)證產(chǎn)品匯總
芯馳科技升級(jí)智能座艙與智能車控芯片產(chǎn)品線
瑞芯微芯片全景與選型推薦
兆芯處理器開先KX-U6980S處理器榮獲工業(yè)芯“新質(zhì)”獎(jiǎng)
芯來科技正式發(fā)布首款專用處理器產(chǎn)品線Nuclei Intelligence系列
評(píng)論