人人操人人摸人人操,欧美一级特黄A片免费观看密森

2025年以來，后摩智能在多項前沿研究領域取得突破性進展，近期在NeurIPS、ICCV、AAAI、ACMMM四大國際頂會上有 6 篇論文入選。致力于大模型的推理優(yōu)化、微調、部署等關鍵技術難題，為大模型的性能優(yōu)化與跨場景應用提供了系統(tǒng)化解決方案。

這四大會議涵蓋人工智能從基礎理論、核心技術與跨模態(tài)應用的全景視圖，是全球學術界與產業(yè)界進行深度交流與合作的關鍵平臺：

NeurIPS作為人工智能與機器學習領域的頂尖國際會議，尤為強調神經信息處理系統(tǒng)的基礎理論、算法創(chuàng)新與前沿應用；

ICCV作為計算機視覺領域三大頂級會議之一，專注于圖像、視頻的視覺理解與三維視覺等核心技術；

AAAI作為人工智能領域的綜合性頂會，覆蓋機器學習、自然語言處理、計算機視覺乃至AI倫理等多個核心方向，致力于推動人工智能的整體發(fā)展；

ACMMM則作為多媒體技術領域的權威國際會議，聚焦于跨模態(tài)分析、內容生成與人機交互等融合技術。

本文將簡要概述近期被收錄的論文。

01【NuerIPS-2025】RSAVQ: 為LLM而生的黎曼敏感性感知矢量量化

后摩智能芯片算法團隊提出了黎曼敏感度感知矢量量化框架 RSAVQ（Riemannian Sensitivity-Aware Vector Quantization），攻克了大語言模型（LLMs）在極低比特（如 2-bit）量化下的精度保持難題。該框架通過信息幾何與矢量量化的深度融合，首次在參數空間的黎曼流形視角下約束量化誤差，并結合通道敏感性動態(tài)分配比特資源，為大模型在移動終端、嵌入式設備等資源受限場景的高效部署提供了突破性解決方案。

研究背景

近年來，大語言模型在自然語言處理等任務中能力卓越，但參數規(guī)模指數級增長（如 LLaMA-3 70B 在 FP16 需約 140GB 內存）制約其在邊端設備落地。模型壓縮尤其是權重量化被視為關鍵。低比特量化可降開銷，但 2-bit 及以下極低比特場景中，傳統(tǒng)方法有雙重瓶頸：忽視方向敏感性，現有量化假設誤差各向同性，實際不同方向誤差對模型損失影響差異大；忽視通道敏感性，均勻和傳統(tǒng)矢量量化默認通道敏感性一致，實則不同通道相同擾動損失變化相差數倍。RSAVQ 以信息幾何為核心創(chuàng)新，將神經網絡參數空間建模為帶 Fisher 信息度量的黎曼流形，通過兩大核心模塊實現極低比特下的精度保持與高效部署。

方法簡介

核心模塊一：EDSG（誤差方向敏感性引導）針對傳統(tǒng)量化誤差易積累于高敏感方向的問題，RSAVQ 提出測地誤差對齊策略。利用 Fisher 信息矩陣量化參數空間曲率，將量化誤差投影至負自然梯度方向，通過約束項強制誤差沿低敏感方向分布，減少對模型性能的影響。

核心模塊二：WCSG（通道敏感性引導）基于 Fisher 信息矩陣分析構建通道敏感度量，量化各通道對損失的貢獻。結合率失真理論與拉格朗日優(yōu)化，在總比特預算下實現動態(tài)比特分配，高敏感通道獲更多比特，低敏感通道精簡資源。

研究結果和價值

實驗表明，RSAVQ在LLaMA-2、LLaMA-3系列大模型上優(yōu)勢顯著：LLaMA-2 70B在2-bit量化下，困惑度僅比FP16高0.4，零樣本精度達58.66%，超越VPTQ、QuIP等當前最優(yōu)方法；LLaMA-3 8B的2-bit量化PPL較VPTQ低0.4，零樣本精度提升1.5%；LLaMA-3 70B的2-bit量化零樣本精度達71.3%，創(chuàng)大語言模型極低比特量化的新紀錄，2-bit量化精度逼近浮點，全面超越SOTA。

論文鏈接：https://arxiv.org/abs/2510.01240

02【ACMMM-2025】MQuant: 面向多模態(tài)大語言模型的靜態(tài)全量化統(tǒng)一框架

后摩智能芯片算法團隊提出了MQuant (Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization) ——首個面向多模態(tài)大語言模型（MLLMs）的全靜態(tài)量化框架，在多模態(tài)推理加速領域取得了重要突破。該工作系統(tǒng)性地分析了 MLLMs 在視覺與語言模態(tài)融合過程中存在的量化瓶頸：視覺 token 數量龐大、分布尺度差異顯著、Hadamard 旋轉引發(fā)的極端異常值等問題。針對這些難題，MQuant 提出了模態(tài)特異靜態(tài)量化（Modality-Specific Static Quantization, MSQ）與旋轉幅值抑制（Rotation Magnitude Suppression, RMS）等關鍵技術，從體系層面實現了多模態(tài)融合的量化統(tǒng)一。

研究背景

在當前人工智能浪潮中，多模態(tài)大語言模型（MLLMs）憑借理解圖像、文本、視覺+語言等多種輸入形式的能力，正在迅速成為先進智能系統(tǒng)的重要組成部分。然而，這類模型規(guī)模龐大、推理資源開銷極高，嚴重限制了其在邊緣設備、移動端、嵌入式場景中的落地部署。

方法簡介

MQuant 針對上述挑戰(zhàn)，提出了三大關鍵模塊：

Modality-Specific Static Quantization (MSQ)：為視覺 token 與文本 token 分別設定靜態(tài)量化尺度，避免“一個尺度套用所有模態(tài)”帶來的偏倚。

Attention-Invariant Flexible Switching (AIFS)：通過重排序 token，保持注意力機制對因果依賴的完整支持，同時避開每個 token 需要動態(tài) scale 計算的高昂代價。

Rotation Magnitude Suppression (RMS)：專門用于緩解因在線 Hadamard 旋轉所引入的權重 “極端異常值” 問題，從而在低比特量化下保留更高的模型穩(wěn)定性。

研究結果和價值

在五款主流多模態(tài)大語言模型（包括 Qwen?VL、MiniCPM?V、CogVLM2 等）上，MQuant 在 W4A8（4?位權重量化 / 8?位激活量化）設置下實現了如下表現：接近浮點（FP）精度：精度下降 < 1%；推理延遲最多降低約 30%‘’顯著超越現有 PTQ 基線方法。MQuant 的提出，為“多模態(tài)大語言模型 + 資源受限設備” 的組合場景帶來了關鍵突破：既能保精度、又能降延時。未來，我們預計該技術將加速 MLLMs 在移動終端、智能穿戴設備、邊緣側 AI 應用中的大規(guī)模部署。進一步方向包括：更低比特率下的量化（如 2 位以下）、適配更多模態(tài)（視頻、音頻、多語言）以及自動化量化調優(yōu)流程。

論文鏈接：https://arxiv.org/abs/2502.00425

03【AAAI-2026】OTARo: 一次微調多種bit，打造端側大模型高效部署方案

后摩智能芯片算法團隊提出了OTARo（Once Tuning for All Precisions toward Robust On-Device LLMs）。一種僅需一次微調即可支持多種精度切換的魯棒微調方法，大幅降低了微調與端側部署所需的計算資源，助力端側用戶穩(wěn)健適應動態(tài)發(fā)展中的真實世界場景。

研究背景

近年來，邊緣設備在算力、帶寬和存儲等方面取得了顯著突破，使得LLMs的端側部署（LLMs On-Device Deployment）成為了當前研究的前沿方向。當資源受限的端側設備部署特定精度的大語言模型時，針對單一精度的微調技術雖然可以提升模型在特定精度上的效果，但是應注意到，這種方式在其他精度下的性能被削弱，即使在相鄰精度之間也可能出現性能驟降的現象。多個精度分別進行固定精度微調，得到多個模型部署到端側供用戶適時選擇是解決問題的一種思路，然而，為每種精度分別訓練模型會顯著增加微調期間計算成本，并且，對于資源有限的邊緣設備而言，存儲多份權重會顯著增加存儲空間占用，易超出硬件容量限制，也意味著在模型版本更新時需要分別維護和同步多份權重，增加了管理復雜度。

方法簡介

OTARo基于SEFP（Shared Exponent Floating Point），聯合多位寬進行感知微調，一次微調生成一個可切換為多種精度且保持性能魯棒性的模型，助力端側用戶穩(wěn)健適應動態(tài)發(fā)展中的真實世界場景。在訓練位寬采樣上，提出利用-探索位寬路徑搜索策略（BPS），保證了位寬路徑能夠探索到不同位寬的量化的誤差，且最終收斂于量化誤差較小的高位寬。進一步，為了緩解低位寬區(qū)間上誤差的影響，在梯度更新上，提出延遲更新策略（LAA），利用梯度振蕩的周期性、對稱性，通過模型參數的延遲更新，平滑了低位寬下的梯度劇烈振蕩，減少了對模型向其他位寬最優(yōu)解靠攏的消極影響，進而實現微調后模型的魯棒性。

研究結果和價值

實驗在表明，OTARo在所有位寬下始終取得優(yōu)秀性能。在具有挑戰(zhàn)性的低比特設置（E5M4、E5M3）下，OTARo也能獲得較好的表現。OTARo的核心突破在于通過一次微調獲得一個統(tǒng)一模型，以支持多種精度。該方法大幅度降低多位寬模型微調以及存儲復雜度，為大模型移動端部署提供核心技術支撐，推動大模型技術朝著更靈活、更經濟的方向高效落地。

論文鏈接：https://arxiv.org/abs/2511.13147

04【AAAI-2026】FQ-PETR：全量化位置嵌入變換框架，突破自動駕駛實時感知瓶頸

后摩智能芯片算法團隊提出了FQ-PETR（Fully Quantized Position Embedding Transformation）——面向多視角 3D 檢測模型的全量化框架，在自動駕駛感知模型的高效推理與端側部署方向上取得重要突破。該研究針對 PETR 系列模型在量化部署中精度急劇下降的問題，系統(tǒng)揭示了導致性能崩塌的根源：多模態(tài)特征幅值差異過大與非線性算子量化誤差累積。為此，團隊創(chuàng)新性地提出三項關鍵技術，實現了3D 檢測模型的端側全整型推理。

研究背景

在自動駕駛感知系統(tǒng)中，基于相機的多視角 3D 檢測因其高分辨率與低成本，正逐步取代純 LiDAR 方案。PETR 及其系列模型憑借將 2D 圖像特征映射至 3D 空間的“位置嵌入變換（Position Embedding Transformation）”設計，成為多攝像頭感知領域的主流框架。然而，這類 Transformer 結構的計算與顯存開銷極大，阻礙了其在端側設備中的實時部署。現有量化技術雖能顯著壓縮模型，但直接應用于 PETR 會導致性能崩塌（mAP 下降 20% 以上）。根源在于： 1. 多模態(tài)特征量級差異極大——圖像特征與相機射線位置嵌入（PE）數值范圍相差百倍；2. 非線性算子（如 Softmax、Sigmoid）量化后誤差劇增且硬件不友好。

方法簡介

FQ-PETR 面向上述瓶頸，提出了三項關鍵技術：

Quantization-Friendly LiDAR-ray Position Embedding (QFPE)：以 LiDAR 物理先驗為指導，將原多點采樣改為單點射線采樣，替代 inverse-sigmoid 非線性，顯著減小 PE 幅值（約 4.4 × 降低）并保持幾何一致性。

Dual-Lookup Table (DULUT)：創(chuàng)新性地用“兩級線性 LUT 級聯”近似復雜非線性函數（如 SiLU、Softmax），以 32 + 32 表項實現 < 0.1% 誤差，無需專用硬件，兼容各類 NPU / GPU 平臺。

Quantization After Numerical Stabilization (QANS)：在 Softmax 數值穩(wěn)定化（減去最大 logit）后再執(zhí)行整數量化，有效抑制注意力漂移問題，確保注意力分布與浮點結果一致。

研究結果和價值

實驗表明，在 PETR、PETRv2、StreamPETR、MV2D 等主流系列上，FQ-PETR 在 W8A8 全整型量化下實現 < 1% mAP/NDS 下降；延遲最高降低 75%，顯存占用減少 75%，整體 FPS 提升 3.9×。FQ-PETR是首個針對 Transformer范式3D檢測器的端側全量化解決方案，為高性能感知模型的車載與移動部署奠定技術基礎。

論文鏈接：https://arxiv.org/pdf/2502.15488

05【AAAI-2026】VAEVQ：基于變分建模的視覺離散表征新范式

后摩智能芯片算法團隊提出了 VAEVQ（Variational Autoencoding Vector Quantization）：一種以變分建模驅動的離散視覺表征方法，在視覺離散化（Visual Tokenization）領域實現了新的突破。該工作創(chuàng)新性地將變分自編碼思想（VAE）與矢量量化（VQ）深度融合，從概率建模角度重塑了視覺離散化過程，顯著提升了視覺 token 的表達能力與語義一致性。

研究背景

近年來，VQ-VAE、VQ-GAN 等離散視覺模型在多模態(tài)大模型中承擔關鍵角色，負責將連續(xù)視覺特征映射為離散 token，以支持圖像生成、理解與視覺語言對齊。然而，現有方法普遍面臨兩大瓶頸：過度離散化損失語義連續(xù)性和碼本利用率低、訓練不穩(wěn)定。VAEVQ 框架從概率視角出發(fā)，引入變分推斷機制，以連續(xù)的潛在分布指導離散向量量化，形成統(tǒng)一的“變分–離散”表征學習框架。

方法簡介

核心模塊一：Variational Latent Regularization（變分潛空間約束）通過引入高斯分布的潛變量先驗，VAEVQ 在編碼端學習潛空間分布q(z|x)，并通過 KL 散度約束潛變量與標準先驗對齊，從而在量化前保持特征的可分性與連續(xù)性，為離散化提供概率平滑。

核心模塊二：Probabilistic Vector Quantization（概率化矢量量化）以潛變量的概率分布為權重計算期望量化誤差，實現“軟量化”與梯度可傳遞。該設計有效緩解了 codebook collapse，并顯著提升碼本利用率。

核心模塊三：Joint Variational Optimization（聯合變分優(yōu)化）通過聯合優(yōu)化編碼器、解碼器與碼本參數，VAEVQ 實現了端到端的穩(wěn)定收斂。模型在重建質量與離散語義之間取得平衡，具備更強的生成能力與跨模態(tài)對齊能力。

研究結果和價值

在 ImageNet、MS-COCO、CC3M 等標準數據集上，VAEVQ 相比 VQ-VAE2 與 VQ-GAN 在重建 PSNR 與 FID 指標上分別提升 1.3dB 與 7.2%，視覺 token 語義聚合度（Semantic Clustering Score）提升 18%。充分表明該框架在高保真重建、離散語義建模與跨模態(tài)表征對齊方面的綜合優(yōu)勢，為構建更高效、更可擴展的視覺離散表示與大規(guī)模生成模型奠定了堅實的方法論基礎。

論文鏈接：https://arxiv.org/abs/2511.06863。

06【ICCV-2025】EA-Vit：基于彈性架構的ViT多任務高效部署框架

后摩智能芯片算法團隊與新加坡國立大學、西安電子科技大學合作研究提出了EA-Vit（Efficient Adaptation for Elastic Vision Transformer）。該框架攻克了 Vision Transformers（ViTs）在跨平臺部署中的核心痛點 —— 無需重復訓練即可生成適配不同資源約束的多尺寸模型，為AI視覺應用的高效落地提供了全新解決方案。代碼已同步開源于 GitHub（https://github.com/zcxcf/EA-ViT）。

研究背景

在計算機視覺領域，ViTs 因出色的泛化能力和下游任務適配性，已成為圖像分類、語義分割、醫(yī)療影像分析等場景的核心模型。然而，傳統(tǒng)部署模式面臨顯著瓶頸：從資源受限的移動端到高性能 GPU 集群，不同平臺需對應不同尺寸的 ViTs 模型，需重復訓練、微調，不僅耗時耗能，還增加了模型版本管理復雜度；現有彈性 ViT 方法（如 DynaBERT、HydraViT）或僅支持 1-3 個維度調整，或需在預訓練階段引入彈性，子模型數量有限（最多僅個），難以滿足多樣化部署需求。

方法簡介

第一階段：構建Multi-Dimensional Elastic Architecture，首次實現 ViT 在 MLP expansion ratio、number of attention heads、embedding dimension、network depth 四個核心維度的全彈性調整，同時采用Curriculum-based Elastic Adaptation策略：從最大預訓練模型起步，按預設步驟（如訓練 epoch 10、15、20）逐步擴大子模型參數采樣范圍（最終實現 R∈[0.5,4]、H∈[6,12]、E∈[384,768]），在保留預訓練知識的同時，避免小模型訓練對大模型性能的干擾。

第二階段：設計lightweight constraint-aware router，基于定制化 NSGA-II 算法篩選的 Pareto-optimal 配置初始化，再與 ViT 骨干網絡聯合優(yōu)化，可根據目標平臺的計算預算（如 MACs、參數量、latency）動態(tài)輸出最優(yōu)子模型配置。

研究結果和價值

EA-Vit 的核心突破在于將 ViT 的彈性適配從預訓練階段轉移至下游任務適配階段，真正實現“一次適配，多端可用”。該框架不僅大幅降低模型訓練與存儲成本，還能通過 router 動態(tài)匹配不同任務與平臺需求，為工業(yè)質檢、移動端 AI、醫(yī)療設備集成等場景提供關鍵技術支撐，有望推動 AI 視覺技術向更靈活、更經濟的方向加速落地。

論文鏈接：https://arxiv.org/pdf/2507.19360

總結

上述研究成果聚焦大模型與視覺任務中的量化、表征、適配與部署等核心挑戰(zhàn)，從算法框架創(chuàng)新到軟硬件協同優(yōu)化，系統(tǒng)性地展現了后摩智能在人工智能領域的前瞻布局與深度突破。相關成果從模型壓縮、極低比特量化、推理效率、多平臺適配性等關鍵維度，為大語言模型端側推理、自動駕駛感知以及多模態(tài)大模型的高效部署，提供了具備實踐價值的全棧解決方案。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1817

文章
50091

瀏覽量
265210
后摩智能

后摩智能

+關注

關注
0

文章
51

瀏覽量
1697
大模型

大模型

+關注

關注
2

文章
3647

瀏覽量
5176

原文標題：后摩前沿 | 后摩智能6篇論文入選NeurIPS、ICCV、AAAI、ACMMM四大國際頂會，攻關大模型端邊側部署關鍵技術

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

后摩智能六篇論文入選四大國際頂會

評論