芯片器件中最著名的產(chǎn)物是CPU,國內(nèi)CPU行業(yè)經(jīng)歷步履維艱的發(fā)展,關(guān)注度越來越高,在政務(wù)、通訊、計算等領(lǐng)域經(jīng)常可以看到國產(chǎn)CPU的身影。但通用CPU領(lǐng)域還是國外CPU占據(jù)主導(dǎo)。桌面端有英特爾和AMD,移動端有ARM和高通等企業(yè),國產(chǎn)CPU想要突出重圍并不容易。

這些年國內(nèi)CPU企業(yè)在不斷發(fā)展的同時也在尋找破局之法,國內(nèi)CPU廠商最常見的發(fā)展模式是購買指令集架構(gòu)授權(quán),ARM、MIPS甚至X86均有國內(nèi)CPU企業(yè)獲得了授權(quán)。購買指令集架構(gòu)授權(quán)無疑是一種高效的手段,相當于在別人準備好地基的土地上建房子,產(chǎn)品不能稱為完全國產(chǎn)自主。不過授權(quán)終究是授權(quán),沒有相應(yīng)產(chǎn)權(quán)的保護,依舊可能會受到制約。
01 LoongArch介紹
在2021年4月,龍芯中科率先在國產(chǎn)自主化跨出一步,宣布推出完全自主指令集架構(gòu):LoongArch,頂層架構(gòu)到指令功能和ABI標準完全自主。這表明龍芯中科未來的CPU不再使用MIPS指令集架構(gòu),從今年推出的3A5000開始都將使用LoongArch架構(gòu),這無疑是芯片國產(chǎn)化的重要里程。
我們參照官方的資料,做了一下龍芯3A5000的微架構(gòu)圖,可以粗略看到3A5000大體分為4個區(qū)塊,每個區(qū)塊包含一個核心和一個緩存。

根據(jù)官方的資料,LoongArch依舊屬于RISC陣營,擁有RISC的特點,比如32位定長指令,32個通用寄存器,32個浮點/向量寄存器。但LoongArch也進行了改進,取消了RISC的指令延遲槽,直接跳轉(zhuǎn)指令的目標地址相對PC計算,增加相對轉(zhuǎn)移偏移量。
LoongArch 擁有近2000條指令,并充分考慮兼容需求,相同的源代碼編譯成LoongArch比編譯成龍芯此前支持的MIPS時動態(tài)執(zhí)行指令數(shù)減少10%-20%,也就是運行效率更高,性能也會提升。
LoongArch還深入研究了MIPS、X86、ARM的特性,能對這些主流架構(gòu)進行二進制翻譯,對MIPS可以實現(xiàn)100%的翻譯,能實現(xiàn)跨平臺兼容,龍芯目標是在2025年的時候消除指令集之間的壁壘。
2021年7月,龍芯中科發(fā)布了兩款基于LoongArch指令集架構(gòu)的處理器:3A5000和3C5000L。3A5000處理器是面向桌面端的產(chǎn)品,3C5000L則是服務(wù)器處理器。?3A5000主頻為2.3Ghz-2.5GHz,擁有4顆核心,每個處理器核心采用 64 位 LA464 自主微結(jié)構(gòu),支持DDR4-3200MHz內(nèi)存,支持Hyper Transport 3.0控制器。3C5000L則由4個3A5000封裝,擁有16個核心。

3A5000處理器內(nèi)置了安全模塊,可以對Meltdown(熔斷)和Spectre(幽靈)兩個經(jīng)典CPU漏洞有效免疫,與上一代3A4000一樣支持內(nèi)置加解密算法和安全可信模塊,也是目前唯一通過國內(nèi)商密二級型號鑒定測試的CPU內(nèi)置模塊。
02?龍芯3A5000整機介紹
龍芯3A5000通用處理器主要應(yīng)用在消費級桌面市場,未來會推出包括臺式機、筆記本、一體機等產(chǎn)品,這次我們拿到了搭載3A5000處理器的臺式整機產(chǎn)品,龍芯3A5000整機在外觀上采用經(jīng)典的商用辦公主機風格,以黑色為主格調(diào),前面板提供一個常規(guī)開關(guān)按鈕,兩個USB 2.0接口,兩個音頻輸入/輸出接口。

龍芯3A5000整機
?
主板I/O處,提供一個VGA視頻口,一個串行COM接口,4個USB 2.0接口,2個USB 3.2 Gen1 5Gbps接口,一個有線網(wǎng)口。

主板I/O
?
其他配件上,這臺主機使用了256GB的SATA固態(tài),雙8GB DDR4 3200MHz內(nèi)存。顯卡為AMD Radeon?HD 8750M,顯卡I/O提供一個VGA接口,一個HDMI接口。

紫光國芯(UnilC)2*8GB DDR4 3200MHz內(nèi)存
?

AMD Radeon?HD 8750M
?
卸下散熱器,可以看到這次的主角:龍芯3A5000,龍芯3A5000的芯片代號為“KMYC70”,這樣命名是紀念抗美援朝70年,而服務(wù)器3C5000L芯片代號則為“CPC100”以慶祝建黨100周年。

這臺主機中,龍芯3A5000直接焊接封裝在主板上,不支持DIY更換。

編譯器方面,龍芯3A5000配套的三大編譯器GCC、LLVM、GoLang和三大虛擬機Java、JavaScript、.NET均已完成開發(fā),龍芯自家基礎(chǔ)版操作系統(tǒng)Loongnix和面向工控領(lǐng)域的LoongOS已經(jīng)發(fā)布,不過我們手里這臺龍芯3A5000整機使用的為統(tǒng)信UOS系統(tǒng),因為優(yōu)化等問題,會與Loongnix及其他系統(tǒng)的龍芯3A5000主機性能有差異。

主機配置
統(tǒng)信UOS系統(tǒng)由多家國內(nèi)操作系統(tǒng)核心企業(yè)自愿發(fā)起并研發(fā)完善的安全、易用、穩(wěn)定的操作系統(tǒng)產(chǎn)品,也是未來芯片國產(chǎn)化的生態(tài)關(guān)鍵一步。其官網(wǎng)目前已經(jīng)開放下載,有興趣的用戶可以自行去官網(wǎng)下載嘗試。那么除了統(tǒng)信UOS操作系統(tǒng)之外,實際上國內(nèi)自主開發(fā)的操作系統(tǒng)麒麟Kylin龍芯版也是不錯的選擇。
03?實戰(zhàn)測試:
此次參與測試的處理器除了龍芯3A5000之外,還增加了intel?i5?9500 六核 14nm處理器、國產(chǎn)ARM V8 四核 7nm處理器和國產(chǎn)ARM V8 八核 14nm處理器作為對比參考,整機主要的硬件參數(shù)保持一致。

其中, intel i5 9500 六核 14nm架構(gòu)處理器主頻3.0-4.4Ghz,熱設(shè)計功耗65W。國產(chǎn)ARM V8 四核 7nm處理器主頻可達2.6GHz,單芯片可支持64核。另一款國產(chǎn)ARM V8 八核 14nm處理器,兼容64位ARMv8指令集,主頻2.3GHz。
需要提前說明的是,參與測試的四款處理器核心數(shù)量并非一致,因此在多核測試項目中我們?nèi)√幚砥鞯淖疃嗪藬?shù)成績。
基準測試
UnixBench性能測試:
下面我們正式開始測試,首先依然選擇大眾熟悉的UnixBench測試工具。這款軟件是一個類 Unix(Unix,BSD,Linux)系統(tǒng)下的性能測試工具,被廣泛用于測試 Linux 系統(tǒng)主機的性能。可以測試系統(tǒng)調(diào)用、讀寫、進程、圖形化測試等成績,也是一個全方面考驗整機的軟件。

UnixBench單核、多核性能測試
?
從測試結(jié)果可以看到,龍芯3A5000和國產(chǎn)ARM V8 四核 7nm這款處理器的性能表現(xiàn)都很出色,龍芯3A5000單核性能達到了1685分,相比上一代龍芯3A4000提升非常明顯,單核性能已逼近了intel i5 9500 六核 14nm這款處理器的水平。這一點也正符合龍芯先通過設(shè)計優(yōu)化提高單核性能,再利用先進工藝增加核數(shù)的升級策略。
多核性能對比中,龍芯3A5000達到4314分與國產(chǎn)ARM V8 四核 7nm的4387分基本持平,但如果與intel i5 9500 六核 14nm對比還是有不小差距。不過,4核龍芯3A5000反而比國產(chǎn)ARM V8 八核 14nm這款處理器的性能高出了600多分。
SPEC 2006測試:
接下來我們進行SPEC 2006對比測試,SPEC 2006是一個大型的CPU性能測試項目,重點測試系統(tǒng)的處理器,內(nèi)存子系統(tǒng)和編譯器。能夠測試CPU最基礎(chǔ)的定點性能和浮點性能。同樣需要提前說明的是,測試處理器由于核心數(shù)量并不對等,因此我們在多核測試環(huán)節(jié)選擇最多核數(shù)的成績。

SPEC CPU2006 BASE性能測試
?
本次我們將SPEC 2006測試分為單核與多核測試。龍芯3A5000單核定點為25.1分,單核浮點為26分。相比intel i5 9500 六核 14nm這款處理器的確有不小的差距,但單核定點與國產(chǎn)ARM V8 四核 7nm這款處理器不相上下,單核浮點略優(yōu)于國產(chǎn)ARM V8 四核 7nm這款處理器。龍芯3A5000對比國產(chǎn)ARM V8 八核 14nm處理器的單核定點則高出近10分,單核浮點則高出近一倍。
多線程測試中,intel i5 9500 六核 14nm處理器依然表現(xiàn)最佳,而龍芯3A5000的多核定點與多核浮點均高于國產(chǎn)ARM V8 四核 7nm處理器,由于國產(chǎn)ARM V8 八核 14nm處理器核心數(shù)量上具有一定的優(yōu)勢,因此定點和浮點的分數(shù)要高于龍芯3A5000和國產(chǎn)ARM V8 四核 7nm處理器。
Stream:
Stream是業(yè)界主流的內(nèi)存帶寬測試程序,測試行為相對簡單可控。 該程序?qū)PU的計算能力要求很小,對CPU內(nèi)存帶寬壓力很大。 隨著處理器核心數(shù)量的增大,而內(nèi)存帶寬并沒有隨之成線性增長,因此內(nèi)存帶寬對提升多核心的處理能力就越發(fā)重要。

Stream內(nèi)存測試
?
在Stream Copy測試子項性能中,龍芯3A5000的表現(xiàn)相當出色,已超過了intel i5 9500 六核 14nm處理器。其中Copy單線性能獲得16864分,多線性能獲得21873分。國產(chǎn)ARM V8 八核 14nm處理器和國產(chǎn)ARM V8 四核 7nm處理器分數(shù)相差不大,但Copy的整體表現(xiàn)比龍芯3A5000稍遜一籌。
應(yīng)用測試
實際上,除了處理器的單核與多核的基準性能測試之外,用戶軟件應(yīng)用體驗則可以更直觀反應(yīng)處理器之間的性能差異,下面我們就來實測一下辦公常用WPS、瀏覽器與視頻播放器方面的應(yīng)用體驗。
WPS:
我們將搭載四款處理器的主機安裝上同樣版本的統(tǒng)信UOS操作系統(tǒng),然后用WPS辦公軟件分別打開10MB(文本+圖片)、50M(文本+圖片)以及 50M(文本+圖片+視頻)單個大容量文件,重點測試打開文檔速度來衡量處理器的性能,為了盡可能保證測試數(shù)據(jù)樣本的規(guī)律性,每個文檔均打開5次后取平均值。

WPS辦公軟件打開文檔速度對比(時間越短越好)
?
通過實際測試可以看到,10MB(文本+圖片)文檔打開速度中,國產(chǎn)ARM V8 八核 14nm處理器用時最短為1.47秒,龍芯3A5000打開速度為1.54秒。50M(文本+圖片)打開速度中,國產(chǎn)ARM V8 四核 7nm處理器用時最長為3.01秒,50M(文本+圖片+視頻)測試中,國產(chǎn)ARM V8 八核 14nm處理器則用時最長為4.24秒,intel i5 9500 六核 14nm處理器用時最短為2.23秒。綜合來看,intel i5 9500 六核 14nm處理器的整體表現(xiàn)較好,而龍芯3A5000略好于國產(chǎn)ARM V8 四核 7nm處理器,國產(chǎn)ARM V8 八核 14nm處理器小容量文件打開文件速度較好,但是大文檔打開速度上不夠理想。
瀏覽器:
瀏覽器是我們?nèi)粘S^看網(wǎng)頁信息和視頻的重要應(yīng)用,目前每個網(wǎng)頁基本上都充斥著大量的圖形,對于CPU運行也會打來不小的負荷壓力。下面我們就來測試一下四款處理器在瀏覽器上的性能表現(xiàn)。我們同時打開瀏覽器并加載愛奇藝視頻網(wǎng)站,對比一下打開時間。由于龍芯自家提供有Loongnix瀏覽器,因此龍芯3A5000選擇自家龍芯瀏覽器V3.1,而其他均選擇火狐瀏覽器進行測試。

瀏覽器打開愛奇藝網(wǎng)站速度(時間越短越好)單位:秒
?
由于愛奇藝網(wǎng)站中存在視頻、圖片、CSS、JavaScript等等,因此加載頁面對處理器性能也提出一定的要求。通過測試可以看到intel i5 9500 六核 14nm處理器加載速度表現(xiàn)較好用時1.4秒,龍芯3A5000的1.78秒也很不錯,最長用時的則是國產(chǎn)ARM V8 八核 14nm處理器用時2.35秒。
影音播放:
最后對比測試的是影音播放性能,我們選擇統(tǒng)信UOS操作系統(tǒng)下的默認視頻播放器,并打開同樣大小的1080P視頻mp4格式,分別測試四款處理器加載視頻的時間。

影院播放器加載1080P MP4視頻時間(時間越短越好)單位:秒
?
通過實測可以看到,國產(chǎn)ARM V8 四核 7nm處理器加載速度最快為1.43秒,龍芯3A5000為1.64秒緊隨其后,最慢的則是國產(chǎn)ARM V8 八核 14nm處理器用時2.09秒。此外值得一提是,由于龍芯3A5000處理器性能提升顯著,因此在播放4K高清視頻的軟解能力也得到進一步提升,在脫離獨顯的情況下依然可以流暢播放高清視頻。
04?不破不立 不斷超越
長久以來,龍芯中科的目標是讓中國人用上完全自主的CPU處理器,二十年風華歲月,彈指一揮間,LoongArch的出現(xiàn)讓龍芯離這個目標邁進了一大步,這也不僅僅是龍芯的突破,也是中國自主CPU行業(yè)的新里程碑。
基于自主指令系統(tǒng)LoongArch的龍芯3A5000性能表現(xiàn)非常讓人滿意,短期內(nèi)的短板是生態(tài)建設(shè),應(yīng)用軟件適配還需要加強。盡管作為過渡階段,龍芯的二進制翻譯系統(tǒng)LAT可以實現(xiàn)跨指令平臺應(yīng)用兼容,也能夠運行部分X86/Windows應(yīng)用軟件,但要想實現(xiàn)滿足各種應(yīng)用需求的龐大軟件生態(tài),仍需要國內(nèi)軟件廠商的群策群力。

生態(tài)涉及的復(fù)雜程度有時候會比單一技術(shù)還要令人頭痛,CPU生態(tài)需要硬件、系統(tǒng)和用戶作為支持,硬件上龍芯已經(jīng)有了LoongArch加持的龍芯3A5000,系統(tǒng)方面有統(tǒng)信UOS、麒麟Kylin等國產(chǎn)操作系統(tǒng)的適配。LoongArch目前最需要的是用戶,用戶不僅包括消費者,也包括開發(fā)者,沒有開發(fā)者帶來的軟件生態(tài)支持,就不會有大量消費者買單,沒有用戶消費就沒有資金繼續(xù)研發(fā),所以LoongArch大力推廣生態(tài)是當下最重要的一步。蘋果M1被認為可以威脅到英特爾和Windows,也是因為用戶基數(shù)龐大,加上全球上千萬的iOS開發(fā)者,才能成為CPU行業(yè)的黑馬。
有些用戶可能比較難理解,為啥我們CPU做了那么多年,國內(nèi)CPU生態(tài)還是建立不起來。這里筆者舉個例子,前段時間有消息稱英特爾要在歐洲建立一座晶圓廠,投入是多少呢?消息顯示英特爾整個生命周期內(nèi)總投資或?qū)⒊^1000億美元,即使包括一些國家的政策補貼,英特爾每年在芯片研發(fā)上也有百億美元投入。國內(nèi)CPU整個行業(yè)實際投入都遠低于英特爾這樣的企業(yè),根本不能滿足所有芯片企業(yè)的需求,大多只勉強維持研發(fā)。而且,國外CPU和操作系統(tǒng)在軟件生態(tài)、產(chǎn)業(yè)體系上磨合了幾十年。正所謂差之毫厘,謬之千里,一個微小細節(jié)失誤就會讓一條億萬投入的產(chǎn)品線作廢,沒有資本必然玩不轉(zhuǎn),門檻高,難入行,久而久之活下來的越來越少。
在這樣的環(huán)境下,龍芯能夠推出自主化指令集架構(gòu)LoongArch實屬不易,準確的說像龍芯這樣現(xiàn)在還堅持做國產(chǎn)自主芯片的企業(yè)都值得尊敬。
不經(jīng)一番寒徹骨,怎得梅花撲鼻香,自主之路無比艱難,龍芯這份勇氣令人贊嘆。現(xiàn)在龍芯已經(jīng)踏出最艱難的第一步,接下來就是生態(tài)體系的建立。目前龍芯中科已經(jīng)建立LoongArch社區(qū),同時將會組建LoongArch聯(lián)盟,免費開放LoongArch,希望更多的開發(fā)者可以參與其中,讓國產(chǎn)自主CPU走的更遠,期待龍芯中科為我們帶來全新自主的國產(chǎn)CPU生態(tài)領(lǐng)域。
編輯:fqj
電子發(fā)燒友App







































評論