2025年以來,后摩智能在多項前沿研究領域取得突破性進展,近期在NeurIPS、ICCV、AAAI、ACMMM四大國際頂會上有 6 篇論文入選。致力于大模型的推理優(yōu)化、微調、部署等關鍵技術難題,為大模型的性能優(yōu)化與跨場景應用提供了系統(tǒng)化解決方案。
這四大會議涵蓋人工智能從基礎理論、核心技術與跨模態(tài)應用的全景視圖,是全球學術界與產業(yè)界進行深度交流與合作的關鍵平臺:
NeurIPS作為人工智能與機器學習領域的頂尖國際會議,尤為強調神經信息處理系統(tǒng)的基礎理論、算法創(chuàng)新與前沿應用;
ICCV作為計算機視覺領域三大頂級會議之一,專注于圖像、視頻的視覺理解與三維視覺等核心技術;
AAAI作為人工智能領域的綜合性頂會,覆蓋機器學習、自然語言處理、計算機視覺乃至AI倫理等多個核心方向,致力于推動人工智能的整體發(fā)展;
ACMMM則作為多媒體技術領域的權威國際會議,聚焦于跨模態(tài)分析、內容生成與人機交互等融合技術。
本文將簡要概述近期被收錄的論文。
01【NuerIPS-2025】RSAVQ: 為LLM而生的黎曼敏感性感知矢量量化

后摩智能芯片算法團隊提出了黎曼敏感度感知矢量量化框架 RSAVQ(Riemannian Sensitivity-Aware Vector Quantization),攻克了大語言模型(LLMs)在極低比特(如 2-bit)量化下的精度保持難題。該框架通過信息幾何與矢量量化的深度融合,首次在參數空間的黎曼流形視角下約束量化誤差,并結合通道敏感性動態(tài)分配比特資源,為大模型在移動終端、嵌入式設備等資源受限場景的高效部署提供了突破性解決方案。
研究背景
近年來,大語言模型在自然語言處理等任務中能力卓越,但參數規(guī)模指數級增長(如 LLaMA-3 70B 在 FP16 需約 140GB 內存)制約其在邊端設備落地。模型壓縮尤其是權重量化被視為關鍵。低比特量化可降開銷,但 2-bit 及以下極低比特場景中,傳統(tǒng)方法有雙重瓶頸:忽視方向敏感性,現有量化假設誤差各向同性,實際不同方向誤差對模型損失影響差異大;忽視通道敏感性,均勻和傳統(tǒng)矢量量化默認通道敏感性一致,實則不同通道相同擾動損失變化相差數倍。RSAVQ 以信息幾何為核心創(chuàng)新,將神經網絡參數空間建模為帶 Fisher 信息度量的黎曼流形,通過兩大核心模塊實現極低比特下的精度保持與高效部署。
方法簡介
核心模塊一:EDSG(誤差方向敏感性引導)針對傳統(tǒng)量化誤差易積累于高敏感方向的問題,RSAVQ 提出測地誤差對齊策略。利用 Fisher 信息矩陣量化參數空間曲率,將量化誤差投影至負自然梯度方向,通過約束項強制誤差沿低敏感方向分布,減少對模型性能的影響。
核心模塊二:WCSG(通道敏感性引導)基于 Fisher 信息矩陣分析構建通道敏感度量,量化各通道對損失的貢獻。結合率失真理論與拉格朗日優(yōu)化,在總比特預算下實現動態(tài)比特分配,高敏感通道獲更多比特,低敏感通道精簡資源。
研究結果和價值
實驗表明,RSAVQ在LLaMA-2、LLaMA-3系列大模型上優(yōu)勢顯著:LLaMA-2 70B在2-bit量化下,困惑度僅比FP16高0.4,零樣本精度達58.66%,超越VPTQ、QuIP等當前最優(yōu)方法;LLaMA-3 8B的2-bit量化PPL較VPTQ低0.4,零樣本精度提升1.5%;LLaMA-3 70B的2-bit量化零樣本精度達71.3%,創(chuàng)大語言模型極低比特量化的新紀錄,2-bit量化精度逼近浮點,全面超越SOTA。
論文鏈接:https://arxiv.org/abs/2510.01240
02【ACMMM-2025】MQuant: 面向多模態(tài)大語言模型的靜態(tài)全量化統(tǒng)一框架

后摩智能芯片算法團隊提出了MQuant (Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization) ——首個面向多模態(tài)大語言模型(MLLMs)的全靜態(tài)量化框架,在多模態(tài)推理加速領域取得了重要突破。該工作系統(tǒng)性地分析了 MLLMs 在視覺與語言模態(tài)融合過程中存在的量化瓶頸:視覺 token 數量龐大、分布尺度差異顯著、Hadamard 旋轉引發(fā)的極端異常值等問題。針對這些難題,MQuant 提出了模態(tài)特異靜態(tài)量化(Modality-Specific Static Quantization, MSQ)與旋轉幅值抑制(Rotation Magnitude Suppression, RMS)等關鍵技術,從體系層面實現了多模態(tài)融合的量化統(tǒng)一。
研究背景
在當前人工智能浪潮中,多模態(tài)大語言模型(MLLMs)憑借理解圖像、文本、視覺+語言等多種輸入形式的能力,正在迅速成為先進智能系統(tǒng)的重要組成部分。然而,這類模型規(guī)模龐大、推理資源開銷極高,嚴重限制了其在邊緣設備、移動端、嵌入式場景中的落地部署。
方法簡介
MQuant 針對上述挑戰(zhàn),提出了三大關鍵模塊:
Modality-Specific Static Quantization (MSQ):為視覺 token 與文本 token 分別設定靜態(tài)量化尺度,避免“一個尺度套用所有模態(tài)”帶來的偏倚。
Attention-Invariant Flexible Switching (AIFS):通過重排序 token,保持注意力機制對因果依賴的完整支持,同時避開每個 token 需要動態(tài) scale 計算的高昂代價。
Rotation Magnitude Suppression (RMS):專門用于緩解因在線 Hadamard 旋轉所引入的權重 “極端異常值” 問題,從而在低比特量化下保留更高的模型穩(wěn)定性。
研究結果和價值
在五款主流多模態(tài)大語言模型(包括 Qwen?VL、MiniCPM?V、CogVLM2 等)上,MQuant 在 W4A8(4?位權重量化 / 8?位激活量化)設置下實現了如下表現:接近浮點(FP)精度:精度下降 < 1%;推理延遲最多降低約 30%‘’顯著超越現有 PTQ 基線方法。MQuant 的提出,為“多模態(tài)大語言模型 + 資源受限設備” 的組合場景帶來了關鍵突破:既能保精度、又能降延時。未來,我們預計該技術將加速 MLLMs 在移動終端、智能穿戴設備、邊緣側 AI 應用中的大規(guī)模部署。進一步方向包括:更低比特率下的量化(如 2 位以下)、適配更多模態(tài)(視頻、音頻、多語言)以及自動化量化調優(yōu)流程。
論文鏈接:https://arxiv.org/abs/2502.00425
03【AAAI-2026】OTARo: 一次微調多種bit,打造端側大模型高效部署方案

后摩智能芯片算法團隊提出了OTARo(Once Tuning for All Precisions toward Robust On-Device LLMs)。一種僅需一次微調即可支持多種精度切換的魯棒微調方法,大幅降低了微調與端側部署所需的計算資源,助力端側用戶穩(wěn)健適應動態(tài)發(fā)展中的真實世界場景。
研究背景
近年來,邊緣設備在算力、帶寬和存儲等方面取得了顯著突破,使得LLMs的端側部署(LLMs On-Device Deployment)成為了當前研究的前沿方向。當資源受限的端側設備部署特定精度的大語言模型時,針對單一精度的微調技術雖然可以提升模型在特定精度上的效果,但是應注意到,這種方式在其他精度下的性能被削弱,即使在相鄰精度之間也可能出現性能驟降的現象。多個精度分別進行固定精度微調,得到多個模型部署到端側供用戶適時選擇是解決問題的一種思路,然而,為每種精度分別訓練模型會顯著增加微調期間計算成本,并且,對于資源有限的邊緣設備而言,存儲多份權重會顯著增加存儲空間占用,易超出硬件容量限制,也意味著在模型版本更新時需要分別維護和同步多份權重,增加了管理復雜度。
方法簡介
OTARo基于SEFP(Shared Exponent Floating Point),聯合多位寬進行感知微調,一次微調生成一個可切換為多種精度且保持性能魯棒性的模型,助力端側用戶穩(wěn)健適應動態(tài)發(fā)展中的真實世界場景。在訓練位寬采樣上,提出利用-探索位寬路徑搜索策略(BPS),保證了位寬路徑能夠探索到不同位寬的量化的誤差,且最終收斂于量化誤差較小的高位寬。進一步,為了緩解低位寬區(qū)間上誤差的影響,在梯度更新上,提出延遲更新策略(LAA),利用梯度振蕩的周期性、對稱性,通過模型參數的延遲更新,平滑了低位寬下的梯度劇烈振蕩,減少了對模型向其他位寬最優(yōu)解靠攏的消極影響,進而實現微調后模型的魯棒性。
研究結果和價值
實驗在表明,OTARo在所有位寬下始終取得優(yōu)秀性能。在具有挑戰(zhàn)性的低比特設置(E5M4、E5M3)下,OTARo也能獲得較好的表現。OTARo的核心突破在于通過一次微調獲得一個統(tǒng)一模型,以支持多種精度。該方法大幅度降低多位寬模型微調以及存儲復雜度,為大模型移動端部署提供核心技術支撐,推動大模型技術朝著更靈活、更經濟的方向高效落地。
論文鏈接:https://arxiv.org/abs/2511.13147
04【AAAI-2026】FQ-PETR:全量化位置嵌入變換框架,突破自動駕駛實時感知瓶頸

后摩智能芯片算法團隊提出了FQ-PETR(Fully Quantized Position Embedding Transformation)——面向多視角 3D 檢測模型的全量化框架,在自動駕駛感知模型的高效推理與端側部署方向上取得重要突破。該研究針對 PETR 系列模型在量化部署中精度急劇下降的問題,系統(tǒng)揭示了導致性能崩塌的根源:多模態(tài)特征幅值差異過大與非線性算子量化誤差累積。為此,團隊創(chuàng)新性地提出三項關鍵技術,實現了3D 檢測模型的端側全整型推理。
研究背景
在自動駕駛感知系統(tǒng)中,基于相機的多視角 3D 檢測因其高分辨率與低成本,正逐步取代純 LiDAR 方案。PETR 及其系列模型憑借將 2D 圖像特征映射至 3D 空間的“位置嵌入變換(Position Embedding Transformation)”設計,成為多攝像頭感知領域的主流框架。然而,這類 Transformer 結構的計算與顯存開銷極大,阻礙了其在端側設備中的實時部署。 現有量化技術雖能顯著壓縮模型,但直接應用于 PETR 會導致性能崩塌(mAP 下降 20% 以上)。根源在于: 1. 多模態(tài)特征量級差異極大——圖像特征與相機射線位置嵌入(PE)數值范圍相差百倍;2. 非線性算子(如 Softmax、Sigmoid)量化后誤差劇增且硬件不友好。
方法簡介
FQ-PETR 面向上述瓶頸,提出了三項關鍵技術:
Quantization-Friendly LiDAR-ray Position Embedding (QFPE):以 LiDAR 物理先驗為指導,將原多點采樣改為單點射線采樣,替代 inverse-sigmoid 非線性,顯著減小 PE 幅值(約 4.4 × 降低)并保持幾何一致性。
Dual-Lookup Table (DULUT):創(chuàng)新性地用“兩級線性 LUT 級聯”近似復雜非線性函數(如 SiLU、Softmax),以 32 + 32 表項實現 < 0.1% 誤差,無需專用硬件,兼容各類 NPU / GPU 平臺。
Quantization After Numerical Stabilization (QANS):在 Softmax 數值穩(wěn)定化(減去最大 logit)后再執(zhí)行整數量化,有效抑制注意力漂移問題,確保注意力分布與浮點結果一致。
研究結果和價值
實驗表明,在 PETR、PETRv2、StreamPETR、MV2D 等主流系列上,FQ-PETR 在 W8A8 全整型量化下實現 < 1% mAP/NDS 下降;延遲最高降低 75%,顯存占用減少 75%,整體 FPS 提升 3.9×。FQ-PETR是首個針對 Transformer范式3D檢測器的端側全量化解決方案,為高性能感知模型的車載與移動部署奠定技術基礎。
論文鏈接:https://arxiv.org/pdf/2502.15488
05【AAAI-2026】VAEVQ:基于變分建模的視覺離散表征新范式

后摩智能芯片算法團隊提出了 VAEVQ(Variational Autoencoding Vector Quantization):一種以變分建模驅動的離散視覺表征方法,在視覺離散化(Visual Tokenization)領域實現了新的突破。該工作創(chuàng)新性地將變分自編碼思想(VAE)與矢量量化(VQ)深度融合,從概率建模角度重塑了視覺離散化過程,顯著提升了視覺 token 的表達能力與語義一致性。
研究背景
近年來,VQ-VAE、VQ-GAN 等離散視覺模型在多模態(tài)大模型中承擔關鍵角色,負責將連續(xù)視覺特征映射為離散 token,以支持圖像生成、理解與視覺語言對齊。然而,現有方法普遍面臨兩大瓶頸:過度離散化損失語義連續(xù)性和碼本利用率低、訓練不穩(wěn)定。VAEVQ 框架從概率視角出發(fā),引入變分推斷機制,以連續(xù)的潛在分布指導離散向量量化,形成統(tǒng)一的“變分–離散”表征學習框架。
方法簡介
核心模塊一:Variational Latent Regularization(變分潛空間約束) 通過引入高斯分布的潛變量先驗,VAEVQ 在編碼端學習潛空間分布q(z|x),并通過 KL 散度約束潛變量與標準先驗對齊,從而在量化前保持特征的可分性與連續(xù)性,為離散化提供概率平滑。
核心模塊二:Probabilistic Vector Quantization(概率化矢量量化) 以潛變量的概率分布為權重計算期望量化誤差,實現“軟量化”與梯度可傳遞。該設計有效緩解了 codebook collapse,并顯著提升碼本利用率。
核心模塊三:Joint Variational Optimization(聯合變分優(yōu)化) 通過聯合優(yōu)化編碼器、解碼器與碼本參數,VAEVQ 實現了端到端的穩(wěn)定收斂。模型在重建質量與離散語義之間取得平衡,具備更強的生成能力與跨模態(tài)對齊能力。
研究結果和價值
在 ImageNet、MS-COCO、CC3M 等標準數據集上,VAEVQ 相比 VQ-VAE2 與 VQ-GAN 在重建 PSNR 與 FID 指標上分別提升 1.3dB 與 7.2%,視覺 token 語義聚合度(Semantic Clustering Score)提升 18%。充分表明該框架在高保真重建、離散語義建模與跨模態(tài)表征對齊方面的綜合優(yōu)勢,為構建更高效、更可擴展的視覺離散表示與大規(guī)模生成模型奠定了堅實的方法論基礎。
論文鏈接:https://arxiv.org/abs/2511.06863。
06【ICCV-2025】EA-Vit:基于彈性架構的ViT多任務高效部署框架

后摩智能芯片算法團隊與新加坡國立大學、西安電子科技大學合作研究提出了EA-Vit(Efficient Adaptation for Elastic Vision Transformer)。該框架攻克了 Vision Transformers(ViTs)在跨平臺部署中的核心痛點 —— 無需重復訓練即可生成適配不同資源約束的多尺寸模型,為AI視覺應用的高效落地提供了全新解決方案。代碼已同步開源于 GitHub(https://github.com/zcxcf/EA-ViT)。
研究背景
在計算機視覺領域,ViTs 因出色的泛化能力和下游任務適配性,已成為圖像分類、語義分割、醫(yī)療影像分析等場景的核心模型。然而,傳統(tǒng)部署模式面臨顯著瓶頸:從資源受限的移動端到高性能 GPU 集群,不同平臺需對應不同尺寸的 ViTs 模型,需重復訓練、微調,不僅耗時耗能,還增加了模型版本管理復雜度;現有彈性 ViT 方法(如 DynaBERT、HydraViT)或僅支持 1-3 個維度調整,或需在預訓練階段引入彈性,子模型數量有限(最多僅個),難以滿足多樣化部署需求。
方法簡介
第一階段:構建Multi-Dimensional Elastic Architecture,首次實現 ViT 在 MLP expansion ratio、number of attention heads、embedding dimension、network depth 四個核心維度的全彈性調整,同時采用Curriculum-based Elastic Adaptation策略:從最大預訓練模型起步,按預設步驟(如訓練 epoch 10、15、20)逐步擴大子模型參數采樣范圍(最終實現 R∈[0.5,4]、H∈[6,12]、E∈[384,768]),在保留預訓練知識的同時,避免小模型訓練對大模型性能的干擾。
第二階段:設計lightweight constraint-aware router,基于定制化 NSGA-II 算法篩選的 Pareto-optimal 配置初始化,再與 ViT 骨干網絡聯合優(yōu)化,可根據目標平臺的計算預算(如 MACs、參數量、latency)動態(tài)輸出最優(yōu)子模型配置。
研究結果和價值
EA-Vit 的核心突破在于將 ViT 的彈性適配從預訓練階段轉移至下游任務適配階段,真正實現“一次適配,多端可用”。該框架不僅大幅降低模型訓練與存儲成本,還能通過 router 動態(tài)匹配不同任務與平臺需求,為工業(yè)質檢、移動端 AI、醫(yī)療設備集成等場景提供關鍵技術支撐,有望推動 AI 視覺技術向更靈活、更經濟的方向加速落地。
論文鏈接:https://arxiv.org/pdf/2507.19360
總結
上述研究成果聚焦大模型與視覺任務中的量化、表征、適配與部署等核心挑戰(zhàn),從算法框架創(chuàng)新到軟硬件協同優(yōu)化,系統(tǒng)性地展現了后摩智能在人工智能領域的前瞻布局與深度突破。相關成果從模型壓縮、極低比特量化、推理效率、多平臺適配性等關鍵維度,為大語言模型端側推理、自動駕駛感知以及多模態(tài)大模型的高效部署,提供了具備實踐價值的全棧解決方案。
-
人工智能
+關注
關注
1817文章
50091瀏覽量
265210 -
后摩智能
+關注
關注
0文章
51瀏覽量
1697 -
大模型
+關注
關注
2文章
3647瀏覽量
5176
原文標題:后摩前沿 | 后摩智能6篇論文入選NeurIPS、ICCV、AAAI、ACMMM四大國際頂會,攻關大模型端邊側部署關鍵技術
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
西井科技攜手同濟大學 三篇AI研究成果入選頂會ICLR 2026
后摩智能M50芯片成功部署OpenClaw
MediaTek多篇論文入選全球前沿國際學術會議
理想汽車12篇論文入選全球五大AI頂會
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
云知聲論文入選自然語言處理頂會EMNLP 2025
后摩智能六篇論文入選四大國際頂會
評論