人人搞人人干人人爱,免费看黄a级色片

人工智能（AI）技術(shù)的快速發(fā)展對數(shù)據(jù)處理和傳輸提出了前所未有的挑戰(zhàn)。在深度學(xué)習(xí)、自然語言處理和計算機(jī)視覺等AI應(yīng)用中，訓(xùn)練和學(xué)習(xí)需要巨大的數(shù)據(jù)量傳遞和交互。2023年GPT-4模型所需訓(xùn)練的參數(shù)量有1.8萬億，要完成這么大的數(shù)據(jù)量的運算，需要上萬個GPU同時工作。如此龐大的數(shù)據(jù)傳輸對于傳統(tǒng)銅纜而言是個巨大的挑戰(zhàn)，因此光模塊在數(shù)據(jù)傳輸中發(fā)揮著非常重要的作用。光模塊在AI和數(shù)據(jù)中心中負(fù)責(zé)數(shù)據(jù)的轉(zhuǎn)換，將1bit的電信號轉(zhuǎn)為光信號，把1bit的光信號轉(zhuǎn)為電信號。400G模塊，能轉(zhuǎn)換0.4T bit，800G光模塊，轉(zhuǎn)換0.8T bit，以GPT-4的訓(xùn)練參數(shù)計算，完成一次計算所需要調(diào)用的光模塊數(shù)量就可能多達(dá)數(shù)萬。而隨著大模型的不斷進(jìn)化和訓(xùn)練參數(shù)的急速增加，對光模塊的需求量只多不少。

AI場景對光模塊的故障率要求

因為訓(xùn)練數(shù)據(jù)量大，所以AI場景架構(gòu)采用GPU運算更合適，這與傳統(tǒng)的數(shù)據(jù)中心的服務(wù)器類型有所區(qū)別。CPU是串行運算，通常有較少的核心（一般在2到32個核心之間），每個核心都非常強(qiáng)大，適合執(zhí)行復(fù)雜的單線程任務(wù)，適用于傳統(tǒng)數(shù)據(jù)中心的串行結(jié)構(gòu)。GPU是并行運算，擁有大量的核心（數(shù)百到數(shù)千個），每個核心較簡單，適合執(zhí)行大量的并行任務(wù)，因此更適用數(shù)據(jù)量超大的AI場景。傳統(tǒng)的數(shù)據(jù)中心結(jié)構(gòu)，是基于串行方式的，對時延的要求雖然很看重，但不像AI場景中對時延的苛刻要求。并行任務(wù)的結(jié)果就是成千上萬的并行數(shù)據(jù)要傳輸，整個數(shù)據(jù)的完成是以時延最大，最慢的那個bit為準(zhǔn)的。其他再快也不行。

光模塊的故障率比傳統(tǒng)的電學(xué)芯片的要高很多很多，光模塊選擇熱插拔，也是因為光學(xué)器件的故障率很高，用熱插拔方便維修和更換。傳統(tǒng)的數(shù)據(jù)中心，光模塊對于故障率的要求比傳統(tǒng)通信更寬松，少量的故障并不會影響到整體的運行傳輸，所以遇到光模塊故障后及時更換就可以了。但對于基于AI的這種場景就不適用，大數(shù)據(jù)量的并行計算，而且不是實時保存的。如果有任何一個數(shù)據(jù)傳錯了，那么整體要重來，重新計算一遍。中國移動也曾提到當(dāng)前人工智能中主流萬卡集群的GPU網(wǎng)絡(luò)每月最大會發(fā)生上千次閃斷，其中34%是與網(wǎng)絡(luò)相關(guān)。其中每年大概會有60次左右的光模塊故障導(dǎo)致的訓(xùn)練中斷，而且故障定位也通常會需要數(shù)天到數(shù)十天之久。所以光模塊失效率高會導(dǎo)致大的丟包率和維護(hù)成本，從而給設(shè)備服務(wù)商帶來巨大的運營壓力。因此在AI場景中對光模塊可靠性的要求非?？量?。

圖1 AI大模型中丟包率導(dǎo)致訓(xùn)練所需時間增長

AI場景光模塊的可靠性問題

綜上所述，對于傳統(tǒng)數(shù)據(jù)中心而言，一般會把可靠性的要求放寬，是因為通常在實際部署中，數(shù)據(jù)中心的樹形網(wǎng)絡(luò)結(jié)構(gòu)是配置了冗余的，從而這此前提下放寬了對模塊故障率的要求。冗余越大，有更多的節(jié)點可以實現(xiàn)業(yè)務(wù)傳輸，光模塊的失效率略大一些是不影響整體通信的。因此傳統(tǒng)數(shù)據(jù)中心的光模塊，有很長一段時間，是非氣密封裝，因為非氣密封裝，故障率會高一些，但成本也會下降很多。

但AI大模型與傳統(tǒng)數(shù)據(jù)中心不同，AI場景所采用的并行計算，如上一節(jié)所講，對故障零容忍，對光模塊的穩(wěn)定性要求極高。因此，非氣密封裝已經(jīng)不能滿足可靠性要求了，各家廠商又開始使用氣密封裝降低失效率。光模塊中產(chǎn)生的可靠性問題主要是光器件失效引起的，包括激光器、探測器和其他元器件，其中激光器失效最高。阿里曾經(jīng)做過統(tǒng)計，在光模塊眾多的元器件中，超過90%以上的失效是與激光器相關(guān)的。

圖2 阿里統(tǒng)計的光模塊各元件失效占比統(tǒng)計

光模塊自身已經(jīng)面臨非常高的可靠性風(fēng)險了，然而光模塊從400G、800G發(fā)展到1.6T，模塊功耗隨著芯片功率、射頻損耗，DSP補(bǔ)償?shù)妊杆僭黾?，功耗增加提高了光模塊實際的工作溫度，同樣也使得光模塊壽命急速縮短，可靠性急劇下降。光模塊溫度升高，激光器芯片的發(fā)光效率降低，廢熱更大，也會帶來可靠性風(fēng)險。

圖3 功耗增加機(jī)柜溫度升高可靠性下降

現(xiàn)行可供參考的可靠性標(biāo)準(zhǔn)如GR-468，一方面從標(biāo)準(zhǔn)提出到現(xiàn)在已有二十余年時間，另一方面該標(biāo)準(zhǔn)是作為通信用光電子器件的可靠性標(biāo)準(zhǔn)，對AI場景并不適用。近年來，大模型使用方以及光模塊廠商都對光器件提出了更嚴(yán)格的可靠性要求。在2023年CIOE上，阿里提出了自身對于光芯片可靠性的認(rèn)證要求，要求光模塊FIT小于125，即有1000個光模塊在工作，5年后，只允許5個出現(xiàn)故障。同時也對激活能Ea，和n做了限定，限定激活能 Ea=0.35，n=0。老化公式的n，是加速壓力的指數(shù)，可以是電流，溫度，或者濕度，關(guān)鍵取決于芯片設(shè)計里哪個因素的影響最大。以電流為例，如果n按照3取值，老化電流是工作電流的1.5倍，得出激光器工作壽命是10年。如果相同條件下n取為0，那么壽命就只有3年了。Ea和n都取最小值，會得到很小的加速系數(shù)，最終會計算出很大的FIT值，這樣一來對可靠性的要求就更為苛刻了。

圖4 可靠性中加速系數(shù)計算公式

如何提升光模塊可靠性

光模塊的可靠性重點關(guān)注的就是激光器。激光器從發(fā)光原理、制造工藝來看，降低優(yōu)化的程度有限，并不能完全達(dá)到電芯片的尺度，近期內(nèi)也不會有顛覆性的技術(shù)改良大幅提高可靠性。對于光模塊的可靠性控制重點還是在實際使用時的早期失效和隨機(jī)失效，早期失效可以通過選用一定參數(shù)的加速老化進(jìn)行剔除，老化的條件，時間都需要通過科學(xué)的計算，避免老化時間過短剔除不到位或者時間過長降低產(chǎn)品壽命。對于隨機(jī)失效，目前有些方案如finisar等公司采用的備份激光器，通過增加多組激光器作為備用降低失效率，一個壞了立刻切到另一個好的激光器去工作，但是增加一組備份，成本、空間、功耗，又增加了很多難度。海思設(shè)計過一種智能光模塊，通過實時監(jiān)控光模塊多種參數(shù)狀態(tài)，采用大數(shù)據(jù)訓(xùn)練主動對光模塊做預(yù)警，提前判斷光模塊即將失效，這要求廠家對自身產(chǎn)品數(shù)據(jù)要有十分全面的掌握。

廣電計量光電器件可靠性分析

光模塊市場近兩年隨著AI浪潮的出現(xiàn)展現(xiàn)出了廣闊的想象空間，但也給光模塊的可靠性帶來了更高的挑戰(zhàn)。過去廠家不重視模塊的可靠性，缺乏對產(chǎn)品的失效評估，而現(xiàn)在解決產(chǎn)品可靠性問題，將會是占領(lǐng)用戶市場，打通產(chǎn)品從送樣到批量供貨的關(guān)鍵。

廣電計量是國內(nèi)第一家完成激光發(fā)射器、探測器全套AEC-Q102車規(guī)認(rèn)證的國有第三方上市檢測機(jī)構(gòu)，具備VCSEL、LED、APD、SPAD等激光器和探測器批次性驗證試驗?zāi)芰?，具有豐富的光電器件可靠性驗證經(jīng)驗。在人才隊伍上，形成以博士、專家為核心的光電器件測試分析團(tuán)隊，可以協(xié)助客戶定制可靠性評估方案，建立準(zhǔn)確的產(chǎn)品失效模型，滿足客戶在可靠性、失效分析領(lǐng)域的認(rèn)證檢測需求。

廣電計量半導(dǎo)體服務(wù)優(yōu)勢

工業(yè)和信息化部“面向集成電路、芯片產(chǎn)業(yè)的公共服務(wù)平臺”
工業(yè)和信息化部“面向制造業(yè)的傳感器等關(guān)鍵元器件創(chuàng)新成果產(chǎn)業(yè)化公共服務(wù)平臺”
國家發(fā)展和改革委員會“導(dǎo)航產(chǎn)品板級組件質(zhì)量檢測公共服務(wù)平臺”
廣東省工業(yè)和信息化廳“汽車芯片檢測公共服務(wù)平臺”
江蘇省發(fā)展和改革委員會“第三代半導(dǎo)體器件性能測試與材料分析工程研究中心”
上海市科學(xué)技術(shù)委員會“大規(guī)模集成電路分析測試平臺”

在集成電路及SiC領(lǐng)域是技術(shù)能力最全面、知名度最高的第三方檢測機(jī)構(gòu)之一，已完成MCU、AI芯片、安全芯片等上百個型號的芯片驗證，并支持完成多款型號芯片的工程化和量產(chǎn)。

在車規(guī)領(lǐng)域擁有AEC-Q及AQG324全套服務(wù)能力，獲得了近50家車廠的認(rèn)可，出具近400份AEC-Q及AQG324報告，助力100多款車規(guī)元器件量產(chǎn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴