91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于基礎(chǔ)模型對(duì)齊的自監(jiān)督三維空間理解方法

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-03-18 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

? 論文鏈接:

https://arxiv.org/pdf/2412.13193

?項(xiàng)目主頁(yè):

https://hustvl.github.io/GaussTR/

概述

三維空間理解是推動(dòng)自動(dòng)駕駛、具身智能等領(lǐng)域中智能系統(tǒng)實(shí)現(xiàn)環(huán)境感知、交互的核心任務(wù),其中3D語(yǔ)義占據(jù)預(yù)測(cè) (Semantic Occupancy Prediction) 對(duì)三維場(chǎng)景進(jìn)行精準(zhǔn)的體素級(jí)建模。然而,當(dāng)前主流方法嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù),制約了模型的可擴(kuò)展性和泛化能力。為此,我們提出GaussTR,一種基于基礎(chǔ)模型對(duì)齊的自監(jiān)督三維空間理解方法。GaussTR通過(guò)Transformer架構(gòu)前饋地預(yù)測(cè)一組稀疏高斯分布來(lái)高效表示3D場(chǎng)景,并利用Gaussian Splatting可微分渲染特征圖與預(yù)訓(xùn)練基礎(chǔ)模型的知識(shí)對(duì)齊,從而使模型學(xué)習(xí)到通用的3D表征,在無(wú)需顯式標(biāo)注數(shù)據(jù)的情況下即可實(shí)現(xiàn)零樣本開(kāi)放詞匯占據(jù)預(yù)測(cè)。在Occ3D-nuScene數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GaussTR取得了11.70mIoU的最先進(jìn)性能,相比現(xiàn)有方法提升18%,同時(shí)訓(xùn)練時(shí)間減少50%,顯著提升計(jì)算效率。我們希望GaussTR能夠?yàn)槿S空間智能領(lǐng)域的研究進(jìn)展提供新的視角,推動(dòng)更可擴(kuò)展、泛化性更強(qiáng)的3D表征學(xué)習(xí)。

5a1c6650-00c2-11f0-9310-92fbcf53809c.png

基于基礎(chǔ)模型對(duì)齊的3D表征學(xué)習(xí)

近年來(lái),2D視覺(jué)基礎(chǔ)模型,如CLIP、DINO等,已取得突破性進(jìn)展,而自監(jiān)督3D空間理解仍受限于大規(guī)模3D數(shù)據(jù)集的獲取困難與3D表征的復(fù)雜性。在3D語(yǔ)義占據(jù)預(yù)測(cè)任務(wù)中,現(xiàn)有的有監(jiān)督方法依賴大規(guī)模體素級(jí)標(biāo)注,不僅標(biāo)注成本高昂,也難以擴(kuò)大到更大規(guī)模的模型量級(jí)。受RenderOcc的啟發(fā),一些自監(jiān)督方案嘗試通過(guò)基于SAM生成的語(yǔ)義掩碼偽標(biāo)簽來(lái)間接監(jiān)督3D表征。然而,該類方法仍限于學(xué)習(xí)SAM生成的預(yù)定義的類別概率,限制了通用3D表征的學(xué)習(xí),難以適應(yīng)自動(dòng)駕駛等現(xiàn)實(shí)應(yīng)用中不可忽視的分布外 (Out-of-Distribution) 場(chǎng)景。同時(shí),基于密集體素的建模方式也帶來(lái)了冗余計(jì)算開(kāi)銷大、難以捕捉高級(jí)語(yǔ)義信息等問(wèn)題。

受到3D Gaussian Splatting (GS) 技術(shù)在場(chǎng)景重建領(lǐng)域的成功應(yīng)用啟發(fā),GaussTR采用稀疏高斯作為3D建模方式,利用GS在2D與3D域間的跨模態(tài)表征一致性,實(shí)現(xiàn)2D視覺(jué)基礎(chǔ)模型的知識(shí)遷移到前饋預(yù)測(cè)的稀疏、非結(jié)構(gòu)化的通用3D高斯表征中。借助2D視覺(jué)基礎(chǔ)模型獲得可擴(kuò)展性和泛化性,實(shí)現(xiàn)自監(jiān)督3D空間理解與零樣本開(kāi)放詞匯推理。

算法架構(gòu)

GaussTR作為基于自監(jiān)督學(xué)習(xí)的3D場(chǎng)景理解框架,整體架構(gòu)可分為前饋高斯建模、基礎(chǔ)模型對(duì)齊監(jiān)督、開(kāi)放詞匯占據(jù)預(yù)測(cè)三個(gè)階段。

5a2e9e56-00c2-11f0-9310-92fbcf53809c.png

前饋高斯建模

GaussTR以多視角圖像作為輸入,首先通過(guò)CLIP和Metric3D V2提取全局語(yǔ)義特征和深度信息構(gòu)建幾何先驗(yàn)。由于CLIP的視覺(jué)局部特征較弱,GaussTR引入FeatUp模塊以增強(qiáng)CLIP特征的細(xì)節(jié)表征。隨后,GaussTR采用Transformer架構(gòu),從一組可學(xué)習(xí)的高斯查詢初始化,通過(guò)可變形注意力聚合基礎(chǔ)模型的局部特征,隨后通過(guò)自注意力機(jī)制建模3D場(chǎng)景的全局關(guān)系。最終通過(guò)MLP預(yù)測(cè)頭預(yù)測(cè)每個(gè)查詢對(duì)應(yīng)的高斯參數(shù),包括位置μ、尺度S、旋轉(zhuǎn)R、密度α、特征f,作為3D場(chǎng)景的表征。

基礎(chǔ)模型對(duì)齊監(jiān)督

在訓(xùn)練階段,GaussTR采用可微分Gaussian Splatting將3D表征投影回2D視角得到渲染特征與深度,與2D視覺(jué)基礎(chǔ)模型進(jìn)行對(duì)齊監(jiān)督,優(yōu)化2D-3D表征的幾何位置和跨模態(tài)一致性。此外,為了提升CLIP特征的語(yǔ)義特征的邊界準(zhǔn)確性,GaussTR可選地引入Grounded SAM生成的分割掩碼,通過(guò)輔助語(yǔ)義頭預(yù)測(cè)約束高斯特征渲染的類別概率。

開(kāi)放詞匯占據(jù)預(yù)測(cè)

在推理階段,GaussTR利用CLIP共享的視覺(jué)-語(yǔ)言對(duì)齊的嵌入空間,計(jì)算預(yù)測(cè)的高斯特征與目標(biāo)類別的CLIP文本向量之間的相似度得到每個(gè)高斯查詢對(duì)應(yīng)的類別概率,隨后將高斯查詢體素化生成最終的占據(jù)預(yù)測(cè)。由此,GaussTR可以在無(wú)需額外標(biāo)注的情況下,實(shí)現(xiàn)零樣本開(kāi)放詞匯預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

在Occ3D-nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)評(píng)估表明,GaussTR取得了11.70mIoU的最先進(jìn)性能,在現(xiàn)有算法的基礎(chǔ)上提升了1.76mIoU。并且相較于依賴分割掩碼偽標(biāo)簽的方法,GaussTR實(shí)現(xiàn)了零樣本的開(kāi)放詞匯占據(jù)預(yù)測(cè),進(jìn)一步驗(yàn)證了基礎(chǔ)模型對(duì)齊的通用3D表征學(xué)習(xí)能力。從逐類別的實(shí)驗(yàn)結(jié)果來(lái)看,GaussTR在以物體為中心的的類別上標(biāo)展卓越,如車輛、建筑物和植被,這些類別的提升與我們提出稀疏建模策略的核心理念相契合。然而,GaussTR在小物體類別(如行人)和平坦表面類別(如道路)上表現(xiàn)相對(duì)較弱。造成這一現(xiàn)象的主要原因包括:小物體的視覺(jué)特征不夠顯著,在基礎(chǔ)模型的預(yù)測(cè)特征中難以區(qū)分;駕駛場(chǎng)景中的大量遮擋,導(dǎo)致平坦表面的幾何信息難以捕獲。

5a3f0eb2-00c2-11f0-9310-92fbcf53809c.png

從可視化結(jié)果來(lái)看,GaussTR預(yù)測(cè)的高斯分布展現(xiàn)了優(yōu)異的整體場(chǎng)景結(jié)構(gòu),并且在物體局部細(xì)節(jié)的表現(xiàn)也更加精確,展現(xiàn)了出色的三維空間理解能力。

5a4de2ca-00c2-11f0-9310-92fbcf53809c.png

5a654ab4-00c2-11f0-9310-92fbcf53809c.png

此外,我們對(duì)2D視角的渲染結(jié)果進(jìn)行了可視化分析,尤其是數(shù)據(jù)集中未明確標(biāo)注的罕見(jiàn)類別(如交通燈、街道標(biāo)識(shí))上的零樣本預(yù)測(cè)效果,GaussTR依然能夠在對(duì)應(yīng)位置產(chǎn)生顯著的激活。這一點(diǎn)進(jìn)一步證明了GaussTR在3D表征學(xué)習(xí)的泛化能力,即使面對(duì)現(xiàn)實(shí)應(yīng)用的長(zhǎng)尾分布場(chǎng)景,仍能依靠基礎(chǔ)模型的知識(shí)遷移實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè),為未來(lái)自動(dòng)駕駛、具身智能等3D空間理解能力提供了新的方向。

5a7b56ec-00c2-11f0-9310-92fbcf53809c.png

總結(jié)與展望

本文介紹了一種基于基礎(chǔ)模型對(duì)齊的稀疏高斯表征學(xué)習(xí)框架GaussTR,通過(guò)將3D高斯預(yù)測(cè)與2D視覺(jué)基礎(chǔ)模型的知識(shí)對(duì)齊,實(shí)現(xiàn)了無(wú)需體素級(jí)標(biāo)注的零樣本自監(jiān)督三維語(yǔ)義占據(jù)預(yù)測(cè),為3D空間理解提供了一種高效且可擴(kuò)展的新方案。

通過(guò)引入Transformer架構(gòu)前饋生成稀疏高斯分布,配合可微分渲染的跨模態(tài)對(duì)齊范式,GaussTR在降低計(jì)算復(fù)雜度的同時(shí),突破了傳統(tǒng)方法對(duì)人工標(biāo)注的依賴,在Occ3D-nuScenes數(shù)據(jù)集上取得11.70mIoU的自監(jiān)督最先進(jìn)性能,驗(yàn)證了基于基礎(chǔ)模型知識(shí)遷移的3D表征學(xué)習(xí)有效性。實(shí)驗(yàn)表明,稀疏高斯建模策略能有效捕捉場(chǎng)景的語(yǔ)義拓?fù)浣Y(jié)構(gòu),尤其在物體級(jí)語(yǔ)義建模上展現(xiàn)出顯著優(yōu)勢(shì)。

未來(lái),我們希望進(jìn)一步探索基于可微分渲染構(gòu)建跨模態(tài)對(duì)齊的通用表征范式,突破3D標(biāo)注數(shù)據(jù)瓶頸,這一技術(shù)路徑有望拓展至更廣泛的3D感知任務(wù),如動(dòng)態(tài)場(chǎng)景理解、多智能體協(xié)同感知等復(fù)雜任務(wù)。同時(shí),隨著更強(qiáng)大的視覺(jué)-語(yǔ)言基礎(chǔ)模型的發(fā)展,我們也期待能夠構(gòu)建更通用的3D語(yǔ)義表征,使得GaussTR能夠在更復(fù)雜的現(xiàn)實(shí)場(chǎng)景中發(fā)揮作用,為自動(dòng)駕駛、具身智能、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域提供更強(qiáng)大的3D感知能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52091
  • 三維空間
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    7857
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14878

    瀏覽量

    179751
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    387

    瀏覽量

    855

原文標(biāo)題:CVPR 2025 | 通向自監(jiān)督三維空間理解——基于高斯表示的語(yǔ)義占據(jù)預(yù)測(cè)算法GaussTR

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于多傳感器數(shù)據(jù)融合處理實(shí)現(xiàn)與城市三維空間和時(shí)間配準(zhǔn)

    城市三維空間信息的獲取是“數(shù)字城市”的基本工程,它具有位置性、多維性和時(shí)序性等特點(diǎn),是“數(shù)字城市”中融合其他各種信息、形成在空間和時(shí)間上連續(xù)分布的城市綜合信息的基礎(chǔ),這就決定了所獲取的城市三維空間
    的頭像 發(fā)表于 07-14 08:04 ?5032次閱讀
    基于多傳感器數(shù)據(jù)融合處理實(shí)現(xiàn)與城市<b class='flag-5'>三維空間</b>和時(shí)間配準(zhǔn)

    [10.2.1]--4.6.1三維空間中的平面方程_clip001

    三維空間
    jf_90840116
    發(fā)布于 :2022年12月15日 10:49:11

    [10.2.1]--4.6.1三維空間中的平面方程_clip002

    三維空間
    jf_90840116
    發(fā)布于 :2022年12月15日 10:50:20

    labview 利用三維空間畫(huà)了個(gè)球,然后想在球面上畫(huà)幾個(gè)點(diǎn)

    labview 利用三維空間畫(huà)了個(gè)球,然后想在球面上畫(huà)幾個(gè)點(diǎn),不知道該怎么加,求助各位大牛,能不能最好把程序穿上里呀
    發(fā)表于 02-21 19:07

    請(qǐng)問(wèn)ADXL345配合陀螺儀能精確測(cè)量短時(shí)三維空間運(yùn)動(dòng)路徑嗎?

    想請(qǐng)問(wèn)下加速度傳感器ADXL345配合陀螺儀,能否精確測(cè)量短時(shí)三維空間運(yùn)動(dòng)路徑,或者說(shuō)它測(cè)量的準(zhǔn)確度怎么樣,對(duì)于重力加速度的消去有沒(méi)有什么好的算法實(shí)現(xiàn)呢,不勝感激。
    發(fā)表于 02-26 14:18

    基于麥克風(fēng)陣列模擬人耳進(jìn)行三維空間的聲源定位

    、設(shè)計(jì)概述 /Design Introduction1.1 設(shè)計(jì)目的基于麥克風(fēng)陣列模擬人耳進(jìn)行三維空間的聲源定位,有著廣泛應(yīng)用前景,可應(yīng)用于大型機(jī)械產(chǎn)品的故障檢測(cè)以及新生嬰兒先天性心臟病檢測(cè)篩查等
    發(fā)表于 08-06 09:21

    三維空間中每平面有四個(gè)點(diǎn),能根據(jù)這四個(gè)點(diǎn)畫(huà)出個(gè)圓來(lái)嗎 ?

    各位大佬,想問(wèn)下就是三維空間中每平面有四個(gè)點(diǎn)能根據(jù)這四個(gè)點(diǎn)畫(huà)出個(gè)圓來(lái)嗎 ?應(yīng)該如何實(shí)現(xiàn)?希望有人能夠講解下不勝感激
    發(fā)表于 05-24 16:46

    基于交流伺服控制的三維空間磁場(chǎng)與磁力測(cè)試技術(shù)

    基于交流伺服控制的三維空間磁場(chǎng)與磁力測(cè)試技術(shù):利用交流伺服控制的高精度、高穩(wěn)定性的特點(diǎn),以交流伺服數(shù)控設(shè)備為運(yùn)動(dòng)平臺(tái),采用霍爾探頭、測(cè)力傳感器、數(shù)據(jù)采集卡和測(cè)
    發(fā)表于 07-05 19:33 ?11次下載

    一種用于三維空間雜波環(huán)境機(jī)動(dòng)目標(biāo)跟蹤的數(shù)據(jù)互聯(lián)方法

    目標(biāo)跟蹤過(guò)程中運(yùn)動(dòng)模型不準(zhǔn)會(huì)導(dǎo)致預(yù)測(cè)中心不準(zhǔn),而預(yù)測(cè)中心不準(zhǔn)會(huì)導(dǎo)致錯(cuò)誤關(guān)聯(lián)。為解決三維空間雜波環(huán)境下機(jī)動(dòng)目標(biāo)跟蹤過(guò)程中數(shù)據(jù)互聯(lián)問(wèn)題,在數(shù)據(jù)關(guān)聯(lián)時(shí)假定目標(biāo)轉(zhuǎn)彎率
    發(fā)表于 11-20 15:22 ?7次下載

    基于伺服控制的三維空間磁場(chǎng)與磁力測(cè)試系統(tǒng)

    利用交流伺服控制的高精度、高穩(wěn)定性的特點(diǎn),以交流伺服數(shù)控設(shè)備為運(yùn)動(dòng)平臺(tái),采用霍爾探頭、測(cè)力傳感器、數(shù)據(jù)采集卡和測(cè)試應(yīng)用軟件組成的三維空間磁場(chǎng)與磁力測(cè)試系統(tǒng)。
    發(fā)表于 09-08 15:15 ?17次下載
    基于伺服控制的<b class='flag-5'>三維空間</b>磁場(chǎng)與磁力測(cè)試系統(tǒng)

    非正交三維坐標(biāo)系下多電平空間矢量調(diào)制策略

    三維空間矢量進(jìn)行表述),以降低三維空間矢量調(diào)制算法復(fù)雜度并優(yōu)化變流器中點(diǎn)電位控制。在對(duì)比分析兩類傳統(tǒng)三維空間矢量調(diào)制算法優(yōu)缺點(diǎn)的基礎(chǔ)之上,提出一種非正交
    發(fā)表于 04-24 17:16 ?5次下載
    非正交<b class='flag-5'>三維</b>坐標(biāo)系下多電平<b class='flag-5'>空間</b>矢量調(diào)制策略

    高精度低成本三維空間測(cè)量與定位技術(shù)分析

    、業(yè)界需要高精度、低成本三維空間測(cè)量與定位 伴隨著智能家居、工業(yè)4.0、計(jì)算機(jī)輔助醫(yī)療以及VR/AR的蓬勃興起,越來(lái)越多的場(chǎng)景需要高精度、低成本的三維空間測(cè)量與定位技術(shù)。 這技術(shù)最
    發(fā)表于 10-16 16:03 ?3079次閱讀

    高精度三維空間定位之單目空間定位技術(shù)解析

    本文將重點(diǎn)介紹單目方案的空間定位。 、單目三維空間測(cè)量與定位要解決的問(wèn)題 1、 求解原理和過(guò)程 如前文所述,單目三維空間測(cè)量與定位,是依據(jù)PnP原理來(lái)求解的。理論上講,如果可以獲取
    的頭像 發(fā)表于 10-16 14:54 ?1.2w次閱讀

    適用于戶外環(huán)境的三維空間橢圓信道模型

    為研究無(wú)線多輸入多輸岀(MIMO)系統(tǒng)信道特性,在考慮無(wú)線信道模型的信號(hào)傳播復(fù)雜性與空間性的基礎(chǔ)上,提岀一種適用于戶外環(huán)境的三維空間橢圓信道模型
    發(fā)表于 05-11 17:04 ?15次下載

    立體倉(cāng)庫(kù)三維空間路徑優(yōu)化方案的介紹

    運(yùn)行效率的有效方法。 真尚有解決方案介紹 真尚有的立體倉(cāng)庫(kù)三維空間路徑優(yōu)化方案將現(xiàn)有蟻群搜索算法,提出了將原有的二平面搜索路線空間擴(kuò)展到三維空間
    發(fā)表于 07-12 09:24 ?1339次閱讀