国产强奸三级片国产图片区,国产深夜福利资源站碰

近日，計算機(jī)視覺與模式識別領(lǐng)域國際頂會CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 正式公布論文收錄結(jié)果。地平線憑借深厚的技術(shù)積淀與前瞻的科研布局，共有11篇論文成功入選，覆蓋端到端自動駕駛、3D重建、世界模型、具身智能等多個核心領(lǐng)域，充分彰顯地平線在前沿技術(shù)領(lǐng)域的頂尖研發(fā)水平。

CVPR如同連接學(xué)術(shù)與產(chǎn)業(yè)的 “黃金橋梁”，一端錨定前沿理論的創(chuàng)新高地，另一端銜接產(chǎn)業(yè)落地的實踐沃土，讓實驗室里的技術(shù)構(gòu)想，通過這座橋梁轉(zhuǎn)化為賦能千行百業(yè)的實際價值。作為全球計算機(jī)視覺領(lǐng)域的頂級會議，CVPR每年吸引全球超萬份高質(zhì)量論文投稿，僅有少數(shù)兼具創(chuàng)新性與實用性的研究成果能夠脫穎而出。

本文將分享地平線此次入選的11篇研發(fā)工作。

基于歸一化殘差軌跡建模的端到端自動駕駛新范式

? 論文題目：

ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving

?論文鏈接：

https://arxiv.org/abs/2510.08562

? 項目主頁：

https://duckyee728.github.io/ResAD

端到端自動駕駛 (E2EAD) 系統(tǒng)因軌跡數(shù)據(jù)固有的時空不平衡性，面臨模型易學(xué)習(xí)虛假關(guān)聯(lián)、優(yōu)化過程過度關(guān)注遠(yuǎn)距離不確定預(yù)測而犧牲即時安全的核心難題。針對上述問題，地平線提出ResAD，為E2EAD打造了全新的軌跡預(yù)測范式，核心創(chuàng)新點(diǎn)與技術(shù)突破體現(xiàn)在重構(gòu)學(xué)習(xí)任務(wù)、優(yōu)化目標(biāo)加權(quán)、實現(xiàn)高效多模態(tài)規(guī)劃三大維度，大幅簡化了模型學(xué)習(xí)難度并提升規(guī)劃性能。

ResAD摒棄直接預(yù)測未來軌跡的傳統(tǒng)思路，先基于自車當(dāng)前狀態(tài)通過恒速模型生成慣性參考軌跡這一穩(wěn)健的物理先驗，將學(xué)習(xí)任務(wù)重構(gòu)為預(yù)測實際軌跡相對該參考的殘差偏差，迫使模型聚焦于學(xué)習(xí)由交通規(guī)則、障礙物等場景上下文驅(qū)動的必要修正，而非從頭學(xué)習(xí)復(fù)雜的時空動力學(xué)，從根源上避免虛假關(guān)聯(lián)的學(xué)習(xí)。針對長時程預(yù)測的不確定性導(dǎo)致的優(yōu)化失衡問題，提出逐點(diǎn)殘差歸一化 (PRNorm) 技術(shù)，對預(yù)測殘差進(jìn)行分量級歸一化并重新加權(quán)優(yōu)化目標(biāo)，有效解決了遠(yuǎn)距離航點(diǎn)的大幅誤差主導(dǎo)學(xué)習(xí)信號的問題，保障了近場安全關(guān)鍵微調(diào)的精準(zhǔn)捕捉。同時，設(shè)計慣性參考擾動 (IRP) 策略，通過對自車初始速度添加隨機(jī)擾動生成多樣化的慣性參考，無需依賴靜態(tài)預(yù)定義軌跡詞匯表，即可生成符合場景上下文的多模態(tài)軌跡假設(shè)，結(jié)合自研的軌跡排序器實現(xiàn)最優(yōu)軌跡篩選，突破了傳統(tǒng)多模態(tài)規(guī)劃效率低、軌跡可行性差的局限。

ResAD通過從任務(wù)本質(zhì)重構(gòu)E2EAD的軌跡預(yù)測邏輯，成功解決了原始軌跡數(shù)據(jù)的時空不平衡難題，為端到端自動駕駛構(gòu)建了更魯棒、穩(wěn)定且可擴(kuò)展的技術(shù)基礎(chǔ)，相關(guān)代碼將開源以推動后續(xù)研究。

用測試時訓(xùn)練補(bǔ)上全局上下文

邁向公里級三維重建

? 論文題目：

Scal3R: Scalable Test-Time Training for Feed-forward Large-Scale 3D Reconstruction

大規(guī)模長序列三維重建在自動駕駛、機(jī)器人建圖、數(shù)字孿生等場景中具有重要應(yīng)用價值，但現(xiàn)有方法在“規(guī)?！迸c“精度”之間始終存在明顯矛盾：以VGGT為代表的feed-forward幾何模型雖然具備很強(qiáng)的局部重建能力，卻受限于注意力的二次復(fù)雜度，難以直接擴(kuò)展到超長序列和公里級場景；FastVGGT通過token壓縮換取更高效率，卻不可避免地?fù)p失細(xì)粒度幾何信息和長程依賴；VGGT-Long則依賴chunk切分與后期對齊來處理長序列，但由于缺乏真正的全局上下文共享，模型對局部預(yù)測誤差高度敏感，容易在跨chunk重建中積累不一致，影響整體結(jié)構(gòu)穩(wěn)定性。針對這一核心瓶頸，本文提出Scal3R，將Test-Time Training引入大規(guī)模三維重建過程，在僅使用RGB輸入的條件下實現(xiàn)對長序列全局上下文的高效建模，為公里級場景重建提供了一種兼顧精度、一致性與擴(kuò)展性的全新方案。

Scal3R的核心創(chuàng)新集中在全局上下文表示與跨chunk上下文同步兩大層面。在全局上下文表示方面，作者提出Global Context Memory (GCM) 機(jī)制，將一組輕量神經(jīng)子網(wǎng)絡(luò)作為可快速適配的“神經(jīng)記憶單元”，掛接在VGGT的全局注意力層后，并通過自監(jiān)督目標(biāo)在測試階段在線更新，從而把長程場景信息壓縮進(jìn)可持續(xù)演化的上下文表示中。與傳統(tǒng)固定長度記憶或簡單緩存不同，這種設(shè)計顯著提升了模型對長程依賴的承載能力，讓局部重建能夠獲得更充分的全局先驗。在跨chunk聚合方面，進(jìn)一步提出Global Context Synchronization (GCS) 機(jī)制，將不同chunk、不同設(shè)備上的上下文更新進(jìn)行高效同步，使每個局部塊在推理時都能共享來自全序列的全局信息，緩解傳統(tǒng)chunk-by-chunk方案中常見的跨段不一致、局部誤差放大以及全局結(jié)構(gòu)松散等問題。借助這一設(shè)計，Scal3R不只是把長序列“切開來算”，而是真正讓全局上下文參與到局部幾何推理之中，從根本上增強(qiáng)了大場景重建的穩(wěn)定性與一致性。

實驗結(jié)果表明，Scal3R在KITTI Odometry、Oxford Spires、Virtual KITTI、ETH3D等多個大規(guī)模基準(zhǔn)上取得了領(lǐng)先的位姿估計和三維重建表現(xiàn)，尤其在長序列、復(fù)雜視角變化和大尺度場景下，相比現(xiàn)有feed-forward、streaming memory-based方法以及chunk對齊方案展現(xiàn)出更強(qiáng)的全局一致性與幾何魯棒性。同時，該方法在效率上也保持了較好的實用性：既避免了長上下文Transformer常見的顯存膨脹問題，也顯著快于依賴重型全局優(yōu)化的傳統(tǒng)SfM流程?？傮w來看，Scal3R將test-time adaptation、長程上下文建模與大規(guī)模三維幾何推理有機(jī)結(jié)合，為“僅憑RGB實現(xiàn)高質(zhì)量公里級場景重建”提供了一條很有代表性的技術(shù)路線，也為今后長序列三維感知系統(tǒng)的可擴(kuò)展設(shè)計帶來了新的啟發(fā)。

突破純視覺流式三維重建瓶頸

LongStream賦能公里級流式重建

? 論文題目：

LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

?論文鏈接：

https://arxiv.org/abs/2602.13172

? 項目主頁：

https://3dagentworld.github.io/longstream

長序列流式三維重建在自動駕駛、機(jī)器人與AR/VR等場景中具有重要價值，但現(xiàn)有流式自回歸模型在長序列中普遍快速失穩(wěn)。其根源在于，主流方法采用首幀錨定的絕對位姿建模，訓(xùn)練時只見短序列，推理時卻要處理遠(yuǎn)超訓(xùn)練范圍的長視頻流，因而產(chǎn)生明顯的train-short， test-long域偏差，推理時被迫進(jìn)行越來越困難的長程外推，最終導(dǎo)致誤差累積、軌跡漂移與幾何崩潰。同時，這類模型還表現(xiàn)出與大語言模型類似的attention sink現(xiàn)象，注意力異常沉積于首幀token，而非對重建更關(guān)鍵的時空鄰近幀，從而違背了局部幾何約束；長期累積的KV cache也會帶來表征污染、記憶飽和與幾何漂移。多種因素疊加，使現(xiàn)有方法往往在數(shù)十米范圍內(nèi)便迅速失效。

針對這一核心瓶頸，LongStream從流式幾何學(xué)習(xí)的建模范式出發(fā)進(jìn)行了系統(tǒng)重構(gòu)。該方法采用Gauge-Decoupled設(shè)計，擺脫首幀錨定的絕對位姿回歸方式，轉(zhuǎn)而預(yù)測當(dāng)前幀相對于最近關(guān)鍵幀的位姿，將隨序列長度不斷惡化的長程外推問題轉(zhuǎn)化為難度基本恒定的局部估計問題，從根本上削弱了對固定全局坐標(biāo)系和首幀錨點(diǎn)的依賴。在此基礎(chǔ)上，LongStream進(jìn)一步識別出attention sink和長期KV-cache污染是長時退化的主要來源，并提出緩存一致性訓(xùn)練，通過在訓(xùn)練階段顯式傳遞和裁剪緩存，使訓(xùn)練時的可見上下文與真實流式推理保持一致，引導(dǎo)模型在滑動窗口條件下學(xué)習(xí)穩(wěn)定的局部時序依賴，而非繼續(xù)依賴首幀“沉積”注意力。

同時，該方法結(jié)合周期性緩存刷新，定期邊緣化陳舊上下文，清理退化記憶，抑制長期飽和與幾何漂移。由于整個系統(tǒng)建立在關(guān)鍵幀相對坐標(biāo)系之上，緩存可在關(guān)鍵幀處刷新而不破壞重建一致性，從而使模型獲得更接近“無限流”處理的能力?；谶@一系列設(shè)計，LongStream實現(xiàn)了公里級、實時、穩(wěn)定的流式三維重建，為長序列視覺幾何建模提供了更魯棒、更可擴(kuò)展的技術(shù)方案。其對長序列失效原因的識別和分析為相關(guān)領(lǐng)域研究提供了重要借鑒，有望推動流式重建模型在自動駕駛、AR/VR等實際應(yīng)用場景的技術(shù)落地。

推動事件相機(jī)邁向駕駛智能

構(gòu)建全棧事件語言基準(zhǔn)

? 論文題目：

EventDrive: Event Cameras for Vision–Language Driving Intelligence

事件相機(jī)具備微秒級時間分辨率、高動態(tài)范圍和抗運(yùn)動模糊等優(yōu)勢，在高速運(yùn)動、強(qiáng)光炫光和低照度等場景中，相比傳統(tǒng)幀相機(jī)更能穩(wěn)定捕捉動態(tài)變化。但現(xiàn)有研究大多集中在檢測、分割、跟蹤等低層感知任務(wù)，尚未系統(tǒng)回答一個關(guān)鍵問題：事件信號能否進(jìn)一步服務(wù)于自動駕駛中的高層語義理解、行為預(yù)測與決策規(guī)劃。EventDrive圍繞這一問題展開，首次將事件流、RGB圖像與語言監(jiān)督統(tǒng)一到自動駕駛?cè)鞒炭蚣苤?，推動事件視覺從“感知增強(qiáng)”走向“智能驅(qū)動”。

為填補(bǔ)這一空白，EventDrive構(gòu)建了首個面向自動駕駛?cè)珬Ｖ悄艿氖录?語言基準(zhǔn)，將任務(wù)統(tǒng)一劃分為Perception、Understanding、Prediction和Planning四個層級，共覆蓋17個子任務(wù)，形成約47.6萬條事件-幀-語言樣本，為評測事件相機(jī)在駕駛智能中的實際價值提供了系統(tǒng)平臺。相較以往主要關(guān)注caption或簡單問答的數(shù)據(jù)集，EventDrive首次把事件模態(tài)推進(jìn)到自動駕駛“感知—理解—預(yù)測—規(guī)劃”的完整閉環(huán)中。

在模型層面，論文進(jìn)一步提出EventDrive-VLM。該方法通過多時間尺度事件體素化與動態(tài)時間域事件編碼建模不同頻率和運(yùn)動模式下的事件特征，并引入Event Q-Former提取與語言任務(wù)相關(guān)的運(yùn)動表征，實現(xiàn)事件模態(tài)、圖像模態(tài)與語言推理空間之間的有效對齊。大量實驗表明，EventDrive-VLM在多類駕駛推理任務(wù)上取得了顯著提升，尤其在動態(tài)變化、運(yùn)動狀態(tài)和時序推理相關(guān)任務(wù)中，事件信號展現(xiàn)出對傳統(tǒng)幀模態(tài)的重要補(bǔ)充價值。

EventDrive的提出，為事件相機(jī)融入自動駕駛高層智能系統(tǒng)提供了新的研究范式，也為未來構(gòu)建更魯棒、更高時效的多模態(tài)駕駛系統(tǒng)奠定了基礎(chǔ)。

貫通“視覺-幾何-功能-人類感知”

駕駛世界模型閉環(huán)評估新范式

? 論文題目：

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

?論文鏈接：

https://arxiv.org/abs/2512.10958

? 項目主頁：

https://worldbench.github.io/worldlens

當(dāng)前駕駛場景生成式世界模型雖能合成高視覺真實感的4D環(huán)境，但普遍存在物理邏輯違規(guī)、幾何一致性缺失、功能可用性不足等問題，且行業(yè)缺乏統(tǒng)一的綜合評估標(biāo)準(zhǔn)，現(xiàn)有指標(biāo)僅側(cè)重幀級視覺質(zhì)量，難以衡量物理合理性、多視圖一致性及實際應(yīng)用價值。針對這一核心痛點(diǎn)，本文提出WorldLens—— 首個覆蓋 “生成質(zhì)量、重建一致性、動作跟隨性、下游任務(wù)適配、人類偏好” 五大維度的全光譜評估基準(zhǔn)，配套構(gòu)建WorldLens-26K大規(guī)模人類偏好數(shù)據(jù)集與WorldLens-Agent自動評估模型，形成 “基準(zhǔn)-數(shù)據(jù)集-評估代理” 三位一體的完整評估生態(tài)，實現(xiàn)對駕駛世界模型 “視覺真實感、幾何一致性、物理plausibility、功能可靠性” 的全方位量化與解讀。

其核心創(chuàng)新性體現(xiàn)在三大維度：一是評估維度的全景化突破，首次將4D重建一致性、閉環(huán)動作跟隨性、下游感知任務(wù)適配性與人類主觀偏好納入統(tǒng)一框架，拆解為24個細(xì)粒度子維度，覆蓋從低階視覺特征到高階行為邏輯的全鏈路評估；二是評估體系的人機(jī)協(xié)同創(chuàng)新，通過26808條含文本理由的人類標(biāo)注數(shù)據(jù)，建立客觀指標(biāo)與人類感知的映射關(guān)系，進(jìn)而訓(xùn)練出WorldLens-Agent自動評估模型，該模型基于Qwen3-VL-8B微調(diào)，可實現(xiàn)零樣本場景下與人類判斷高度對齊的量化評分及可解釋性推理，解決人工評估效率低、主觀性強(qiáng)的痛點(diǎn)；三是評估指標(biāo)的功能導(dǎo)向創(chuàng)新，引入閉環(huán)仿真（如Route Completion、ADS分?jǐn)?shù)）、下游感知任務(wù)（3D檢測、占用預(yù)測）等功能性指標(biāo)，突破傳統(tǒng)視覺評估的局限，實現(xiàn)對模型 “能用、好用” 的核心訴求的量化。

實驗驗證顯示，現(xiàn)有主流模型均無全能表現(xiàn)：DiST-4D在幾何重建與下游任務(wù)適配中表現(xiàn)最優(yōu)，OpenDWM在視覺真實感上領(lǐng)先，而所有模型在閉環(huán)動作跟隨性上仍存在顯著短板（路線完成率普遍低于 15%）。WorldLens通過標(biāo)準(zhǔn)化評估流程與工具鏈，不僅揭示了當(dāng)前模型在 “視覺真實” 與 “物理/功能真實” 間的核心矛盾，更提供了精準(zhǔn)的缺陷診斷能力，為駕駛世界模型從 “看起來真實” 向 “行為真實、可用可靠” 的進(jìn)化提供了關(guān)鍵技術(shù)支撐。

突破大規(guī)模3D重建效率瓶頸

實現(xiàn)千圖序列10×加速

? 論文題目：

LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging

?論文鏈接：

https://arxiv.org/abs/2512.04939

? 項目主頁：

https://garlicba.github.io/LiteVGGT

VGGT作為3D視覺基礎(chǔ)模型，在多視圖3D重建任務(wù)中表現(xiàn)卓越，但因其Transformer架構(gòu)的全局注意力機(jī)制存在二次計算與內(nèi)存復(fù)雜度，處理長序列圖像時易出現(xiàn)內(nèi)存溢出 (OOM) 、推理耗時過長等問題，難以適配大規(guī)模場景應(yīng)用。針對這一核心痛點(diǎn)，本文提出LiteVGGT，通過創(chuàng)新的幾何感知緩存token merging策略，在保持VGGT核心重建精度的前提下，實現(xiàn)了10倍推理加速與顯著內(nèi)存節(jié)省，并支持千圖級圖像序列的高效單次推理3D重建。

LiteVGGT的核心貢獻(xiàn)體現(xiàn)在三個方面：首先，提出幾何感知token優(yōu)先級劃分機(jī)制，通過識別對三維幾何結(jié)構(gòu)最關(guān)鍵的視覺token，在減少計算量的同時保留重建所需的關(guān)鍵幾何信息；其次，設(shè)計跨層緩存融合索引策略，復(fù)用相鄰global attention層的token融合索引，在僅帶來輕微精度下降的情況下顯著降低推理時延；此外，結(jié)合多源數(shù)據(jù)精細(xì)化微調(diào)與FP8量化推理，進(jìn)一步提升模型運(yùn)行效率并降低顯存占用，構(gòu)建完整的高效推理優(yōu)化方案。

實驗結(jié)果表明，LiteVGGT在ScanNet-50、Tanks & Temples等多種室內(nèi)外大規(guī)模場景數(shù)據(jù)集上表現(xiàn)出色：在處理1000張圖像序列時，相比原始VGGT實現(xiàn)10倍推理加速，顯存占用顯著降低，同時點(diǎn)云重建精度和相機(jī)姿態(tài)估計性能均接近原模型。該方案無需修改VGGT核心架構(gòu)，具有良好的兼容性與工程落地能力，可為自動駕駛、AR/VR等應(yīng)用場景提供高效的大規(guī)模三維重建能力。

深度賦能+區(qū)域自適應(yīng)

破解視覺3D占用預(yù)測兩大核心痛點(diǎn)

? 論文題目：

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

?論文鏈接：

https://arxiv.org/abs/2603.01007

3D語義占用預(yù)測是自動駕駛感知的核心任務(wù)，但其視覺-based方法長期面臨兩大關(guān)鍵瓶頸：一是2D到3D視圖轉(zhuǎn)換中因低分辨率、高噪聲深度估計導(dǎo)致的幾何錯位，二是語義類別空間分布各向異性引發(fā)的嚴(yán)重類別不平衡。針對上述痛點(diǎn)，本文提出Dr.Occ—— 深度與區(qū)域雙引導(dǎo)的3D占用預(yù)測框架，通過創(chuàng)新的幾何增強(qiáng)與語義建模模塊實現(xiàn)協(xié)同優(yōu)化，在Occ3D-nuScenes基準(zhǔn)上較強(qiáng)基線BEVDet4D提升7.43% mIoU與3.09% IoU，且可無縫集成至SOTA方法COTR并額外提升1.0% mIoU，展現(xiàn)出極強(qiáng)的通用性與工程價值。

本項目核心創(chuàng)新在于兩大技術(shù)突破：其一，提出深度引導(dǎo)雙投影視圖Transformer (D2-VFormer) 。針對實驗發(fā)現(xiàn)的“直接融合深度圖易導(dǎo)致性能退化”這一挑戰(zhàn)，該模塊利用MoGe-2生成的高質(zhì)量深度線索構(gòu)建體素級掩碼 (Voxel-level Masks) ，引導(dǎo)模型精準(zhǔn)聚焦非空區(qū)域。通過“前向投影下采樣-反向投影致密化-深度引導(dǎo)非空精煉”三階段流程，有效攻克了2D-to-3D轉(zhuǎn)換中的幾何錯位難題，實現(xiàn)了深度基準(zhǔn)模型向3D占用任務(wù)的高效遷移。其二，提出區(qū)域引導(dǎo)專家Transformer (R-EFormer) 及其遞歸變體R2-EFormer。該方法基于3D空間語義分布的強(qiáng)位置偏好，將傳統(tǒng)混合專家 (MoE) 的通道激活機(jī)制升華為空間維度的選擇性專家建模。通過為不同空間區(qū)域自適應(yīng)分配專屬專家，該架構(gòu)有效捕捉了復(fù)雜的空間異構(gòu)語義，并顯著提升了稀有類別的識別召回率，為3D占用任務(wù)提供了全新的空間特征融合范式。

機(jī)器人首次實現(xiàn)語義進(jìn)展推理

零標(biāo)簽在指令結(jié)構(gòu)中定位任務(wù)進(jìn)展

? 論文題目：

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

?論文鏈接：

https://arxiv.org/abs/2511.17097

? 項目主頁：

https://horizonrobotics.github.io/robot_lab/progress-think

在視覺語言導(dǎo)航 (VLN) 中，機(jī)器人長期缺乏一種關(guān)鍵能力：它能持續(xù)前進(jìn)，卻無法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開，畫面節(jié)節(jié)推進(jìn)，但模型并不知道自己在自然語言指令里處于什么階段，因此容易漂移、兜圈，或做出難以解釋的決策。我們認(rèn)為，引入語義進(jìn)展推理，是破解長程導(dǎo)航不穩(wěn)定性的關(guān)鍵路徑。

為了在沒有進(jìn)展標(biāo)注的情況下習(xí)得進(jìn)展定位能力，我們設(shè)計了一個三階段的學(xué)習(xí)框架。第一階段，通過前綴對齊的自監(jiān)督訓(xùn)練，模型在視覺軌跡中自動推斷出與指令前綴的對應(yīng)關(guān)系，使“當(dāng)前觀察對應(yīng)哪一語義段落”成為一種內(nèi)生表征，而非依賴外部標(biāo)注。第二階段，我們將進(jìn)展表示作為上下文注入導(dǎo)航VLA策略，使決策在結(jié)合指令和觀測的同時，也能參考自身的任務(wù)進(jìn)展，從而形成明確的語義方向感。第三階段，通過進(jìn)展推理與導(dǎo)航VLA策略的聯(lián)合優(yōu)化，使模型在推理時保持一致、穩(wěn)健的進(jìn)展定位能力，并形成從語義對齊到動作生成的完整閉環(huán)。

在三階段學(xué)習(xí)下，進(jìn)展不再是一個回歸值或附加標(biāo)簽，而演化為貫穿視覺理解、語義推理與行動決策的結(jié)構(gòu)性信號。機(jī)器人由此首次具備真正的“進(jìn)展定位”能力，能夠在執(zhí)行中持續(xù)推理“我完成到哪了”，并據(jù)此更清晰地決策“下一步該做什么”。

Progress-Think讓機(jī)器人第一次具備語義層面的“進(jìn)展坐標(biāo)系”。我們首次揭示了視覺觀測序列與指令語義之間的結(jié)構(gòu)性關(guān)聯(lián)，并將其提煉為可學(xué)習(xí)的進(jìn)展信號，使模型無需額外標(biāo)注即可學(xué)會思考：“我剛完成了什么”。通過自監(jiān)督的進(jìn)展對齊、進(jìn)展引導(dǎo)決策以及進(jìn)展–策略聯(lián)合微調(diào)，僅憑單目相機(jī)輸入，模型就能顯著減少偏航并提升穩(wěn)定性。Progress-Think在R2R-CE等標(biāo)準(zhǔn)數(shù)據(jù)集上取得領(lǐng)先表現(xiàn)，并進(jìn)一步推動具身推理朝更明確的任務(wù)導(dǎo)向發(fā)展。

從解耦到統(tǒng)一

以通用高斯范式突破3D重建與語義理解邊界

? 論文題目：

Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

?論文鏈接：

https://arxiv.org/abs/2508.03643

? 項目主頁：

https://horizonrobotics.github.io/robot_lab/uni3R

現(xiàn)有3D場景重建方案，普遍面臨任務(wù)表征解耦與多視圖擴(kuò)展受限兩大局限。一方面，幾何重建與語義理解通常被獨(dú)立建模，且高度依賴耗時的逐場景優(yōu)化，直接限制了系統(tǒng)的泛化能力；另一方面，現(xiàn)有框架多局限于雙視圖輸入，擴(kuò)展至多視圖時需進(jìn)行高計算成本的逐對特征匹配，常導(dǎo)致跨視圖幾何不一致。為解決上述計算冗余與表征割裂問題，本文提出了一種基于通用3D Gaussian Splatting的前饋式3D感知底座Uni3R。

Uni3R系統(tǒng)僅需無姿態(tài)的多視圖純視覺輸入，即可直接生成融合幾何結(jié)構(gòu)、外觀表征與開放詞匯語義的3D隱式表示。架構(gòu)設(shè)計上，模型采用跨視圖Transformer融合機(jī)制，通過交替執(zhí)行幀內(nèi)自注意力與幀間交叉注意力，在無相機(jī)姿態(tài)先驗的條件下，實現(xiàn)了對任意數(shù)量視圖信息的高效整合。針對純渲染監(jiān)督易引發(fā)的幾何坍塌問題，框架引入無標(biāo)注幾何先驗以約束高斯基元的空間分布，從而在零額外幾何標(biāo)注的前提下，顯著提升了訓(xùn)練穩(wěn)定性與深度預(yù)測精度。依托該統(tǒng)一表征空間，Uni3R僅需單次前向傳播，即可并發(fā)執(zhí)行高保真新視角合成、開放詞匯3D語義分割與深度預(yù)測三項核心任務(wù)。此外，實驗表明，多任務(wù)統(tǒng)一表征機(jī)制不僅大幅削減了底層計算冗余，更在幾何重建、視角渲染與語義理解之間確立了顯著的協(xié)同增益。

定量實驗表明，Uni3R徹底摒棄了逐場景優(yōu)化與外部姿態(tài)估計依賴，單場景整體重建耗時僅約0.16秒。在ScanNet數(shù)據(jù)集上，其開放詞匯語義分割精度達(dá)到55.84 mIoU，新視圖合成質(zhì)量達(dá)到25.53 PSNR；在RE10K數(shù)據(jù)集上，新視圖合成質(zhì)量達(dá)25.07 PSNR。整體量化指標(biāo)均優(yōu)于PixelSplat與LSM等主流框架，為自動駕駛與機(jī)器人數(shù)字孿生提供了高效、可擴(kuò)展的實時3D場景感知方案。

幾何一致視覺世界模型

突破機(jī)器人操作泛化邊界

? 論文題目：

RoboTransfer: Controllable Geometry-Consistent Video Diffusion for Manipulation Policy Transfer

?論文鏈接：

https://arxiv.org/abs/2505.23171

? 項目主頁：

https://horizonrobotics.github.io/robot_lab/robotransfer

在機(jī)器人操作領(lǐng)域，模仿學(xué)習(xí)是推動具身智能發(fā)展的關(guān)鍵路徑，但高度依賴大規(guī)模、高質(zhì)量的真實演示數(shù)據(jù)，面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案，但顯著的“模擬到現(xiàn)實” (Sim2Real) 鴻溝，制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。

我們提出RoboTransfer——基于擴(kuò)散模型的視頻生成框架，旨在合成高保真且符合物理規(guī)律的機(jī)器人操作演示數(shù)據(jù)。該框架創(chuàng)新性地融合深度-表面法向的幾何約束與多視角特征建模，確保生成視頻具備高度幾何一致性與真實感。通過拆分控制條件設(shè)計，實現(xiàn)對操作場景元素（如背景替換、物體外觀）的精細(xì)控制。結(jié)合物理仿真器重構(gòu)空問布局與交互狀態(tài)，實現(xiàn)多樣化、可拓展的高保真數(shù)據(jù)合成。

RoboTransfer通過數(shù)據(jù)驅(qū)動的生成式AI技術(shù),建立機(jī)器人操作數(shù)據(jù)合成新范式，提供高質(zhì)量、可擴(kuò)展的演示數(shù)據(jù),助力具身智能突破通用性與泛化性邊界。實驗結(jié)果表明，RoboTransfer能夠生成具有高幾何一致性和視覺質(zhì)量的多視角視頻序列。此外，使用RoboTransfer合成數(shù)據(jù)訓(xùn)練的機(jī)器人視覺策略模型，在標(biāo)準(zhǔn)測試任務(wù)中表現(xiàn)出顯著提升的性能：在更換前景物體的場景下取得了33.3%的成功率相對提升，在更具挑戰(zhàn)性的場景下（同時更換前景背景）更是達(dá)到了251%的顯著提升。

打破3D重建與生成邊界

原位補(bǔ)全構(gòu)建單圖3D場景生成新范式

? 論文題目：

3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image

? 項目主頁：

https://zx-yin.github.io/3dfixer

? 代碼鏈接：

https://github.com/HorizonRobotics/3D-Fixer

基于單張圖像生成3D場景，是構(gòu)建機(jī)器人與具身智能數(shù)字孿生環(huán)境的關(guān)鍵技術(shù) ?，F(xiàn)有方案在處理復(fù)雜場景時，常面臨幾何重建不完整與姿態(tài)對齊易出錯的局限；此外，高質(zhì)量場景級訓(xùn)練數(shù)據(jù)的稀缺，也直接限制了現(xiàn)有模型的泛化能力。為此，研究團(tuán)隊提出了3D-Fixer技術(shù)框架，引入了“原位補(bǔ)全 (In-place Completion) ”范式。該范式摒棄了傳統(tǒng)的顯式姿態(tài)對齊流程。其核心機(jī)制是利用3D基礎(chǔ)模型，提取場景中觀測到的殘缺幾何信息作為空間錨點(diǎn)，直接在原位進(jìn)行3D生成與幾何補(bǔ)全。這一設(shè)計在維持全局布局一致性的同時，兼顧了空間定位的準(zhǔn)確度與生成物體的完整度，從而有效規(guī)避了傳統(tǒng)迭代對齊與位姿優(yōu)化過程中固有的誤差累積與結(jié)構(gòu)錯位問題。

模型結(jié)構(gòu)上，3D-Fixer通過引入由粗到精 (Coarse-to-Fine) 的生成策略與遮擋魯棒特征對齊 (Occlusion-Robust Feature Alignment) 機(jī)制，將預(yù)訓(xùn)練的物體生成先驗與真實場景中的幾何觀測信息進(jìn)行深度融合，使模型能夠在存在遮擋的情況下仍然穩(wěn)定推斷場景結(jié)構(gòu)，并有效緩解遮擋區(qū)域邊界模糊的問題。與此同時，為解決高質(zhì)量場景級訓(xùn)練數(shù)據(jù)長期稀缺的瓶頸，團(tuán)隊構(gòu)建并開源了目前規(guī)模最大的組合式場景數(shù)據(jù)集ARSG-110K，其中包含超過11萬個程序化生成的復(fù)雜場景配置以及300萬張帶有高保真三維標(biāo)注的圖像數(shù)據(jù)對。

實驗結(jié)果表明，3D-Fixer在保持前饋推理高效性的同時，實現(xiàn)了當(dāng)前領(lǐng)先水平的幾何重建精度，為機(jī)器人與具身智能系統(tǒng)提供了一種高保真、具備良好泛化能力的三維場景生成新基準(zhǔn)，并為構(gòu)建大規(guī)?？山换?shù)字孿生環(huán)境提供了重要技術(shù)支撐。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算機(jī)

計算機(jī)

+關(guān)注

關(guān)注
19

文章
7815

瀏覽量
93271
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
794

文章
14911

瀏覽量
180278
地平線

地平線

+關(guān)注

關(guān)注
0

文章
465

瀏覽量
16399

原文標(biāo)題：CVPR 2026重磅揭曉！地平線11篇論文強(qiáng)勢入選，前瞻技術(shù)實力引領(lǐng)行業(yè)創(chuàng)新

文章出處：【微信號：horizonrobotics，微信公眾號：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

地平線11篇論文強(qiáng)勢入選CVPR 2026

評論