亚洲国产视频一区二区,亚洲无码毛片A级视频,国产女人高潮360

0. 這篇文章干了啥？

機(jī)器人學(xué)中的一個(gè)基本問題是創(chuàng)建機(jī)器人觀察到的場(chǎng)景的有用地圖表示，其中有用性由機(jī)器人利用地圖完成感興趣的任務(wù)的能力來衡量。最近的研究，包括構(gòu)建語(yǔ)義度量三維地圖，通過檢測(cè)對(duì)象和區(qū)域與封閉的語(yǔ)義標(biāo)簽集對(duì)應(yīng)的工作。然而，封閉集檢測(cè)在能夠表示的概念集方面存在固有的限制，并且不能很好地處理自然語(yǔ)言的內(nèi)在歧義性和可變性。為了克服這些限制，一組新的方法開始利用視覺語(yǔ)言基礎(chǔ)模型進(jìn)行開放集語(yǔ)義理解。這些方法使用一個(gè)無類別分割網(wǎng)絡(luò)（SegmentAnything或SAM）生成圖像的細(xì)粒度段，然后應(yīng)用一個(gè)基礎(chǔ)模型得到描述每個(gè)段的開放集語(yǔ)義的嵌入向量。然后通過將段關(guān)聯(lián)起來構(gòu)造對(duì)象，只要它們的嵌入向量在預(yù)定義的相似度閾值內(nèi)。然而，這些方法把調(diào)整適當(dāng)?shù)拈撝档睦щy任務(wù)留給了用戶，以控制從場(chǎng)景中提取的段的數(shù)量，以及用于決定是否必須將兩個(gè)段聚類在一起的閾值。更重要的是，這些方法沒有捕捉到地圖中語(yǔ)義概念的選擇不僅僅受語(yǔ)義相似性驅(qū)動(dòng)，而且是內(nèi)在于任務(wù)的。例如，考慮一個(gè)被指派移動(dòng)鋼琴的機(jī)器人。機(jī)器人通過區(qū)分所有鍵和弦的位置幾乎不會(huì)增加價(jià)值，但可以通過將鋼琴視為一個(gè)大對(duì)象來完成任務(wù)。另一方面，被指派演奏鋼琴的機(jī)器人必須將鋼琴視為許多對(duì)象（即鍵）。被指派調(diào)音鋼琴的機(jī)器人必須將鋼琴視為更多的對(duì)象------考慮到弦、調(diào)音銷等。同樣，像一堆衣服應(yīng)該表示為一個(gè)單獨(dú)的堆還是單獨(dú)的衣服，或者一片森林應(yīng)該表示為一個(gè)單獨(dú)的地貌區(qū)域還是樹枝、葉子、樹干等，直到我們明確了表示必須支持的任務(wù)，這些問題仍然沒有得到解決。人類不僅在決定要表示哪些對(duì)象以及如何表示時(shí)考慮任務(wù)（有意識(shí)或無意識(shí)），而且還能相應(yīng)地忽略與任務(wù)無關(guān)的場(chǎng)景部分。

下面一起來閱讀一下這項(xiàng)工作~

1. 論文信息

標(biāo)題：Clio: Real-time Task-Driven Open-Set 3D Scene Graphs

作者：Dominic Maggio, Yun Chang, Nathan Hughes, Matthew Trang, Dan Griffith, Carlyn Dougherty, Eric Cristofalo, Lukas Schmid, Luca Carlone

機(jī)構(gòu)：MIT

原文鏈接：https://arxiv.org/abs/2404.13696

代碼鏈接：https://github.com/MIT-SPARK/Clio

2. 摘要

現(xiàn)代無關(guān)類別圖像分割工具（例如SegmentAnything）和開放集語(yǔ)義理解（例如CLIP）為機(jī)器人感知和地圖繪制提供了前所未有的機(jī)會(huì)。雖然傳統(tǒng)的封閉集度量語(yǔ)義地圖僅限于幾十個(gè)或幾百個(gè)語(yǔ)義類別，但現(xiàn)在我們可以建立包含大量對(duì)象和無數(shù)語(yǔ)義變體的地圖。這給我們留下了一個(gè)基本問題：機(jī)器人必須在其地圖表示中包含什么樣的對(duì)象（更一般地說，包含什么樣的語(yǔ)義概念）才是正確的粒度？雖然相關(guān)工作通過調(diào)整對(duì)象檢測(cè)的閾值來隱式選擇粒度級(jí)別，但我們認(rèn)為這樣的選擇本質(zhì)上取決于任務(wù)。本文的第一個(gè)貢獻(xiàn)是提出了一個(gè)任務(wù)驅(qū)動(dòng)的3D場(chǎng)景理解問題，其中機(jī)器人被給定了一系列用自然語(yǔ)言描述的任務(wù)，必須選擇足以完成任務(wù)的粒度和對(duì)象子集以及場(chǎng)景結(jié)構(gòu)并將其保留在其地圖中。我們表明，可以使用信息瓶頸（IB）這一已建立的信息論框架來自然地構(gòu)建這個(gè)問題。第二個(gè)貢獻(xiàn)是一種基于聚合式信息瓶頸方法的任務(wù)驅(qū)動(dòng)的3D場(chǎng)景理解算法，能夠?qū)h(huán)境中的3D基元聚類成與任務(wù)相關(guān)的對(duì)象和區(qū)域，并逐步執(zhí)行。第三個(gè)貢獻(xiàn)是將我們的任務(wù)驅(qū)動(dòng)聚類算法集成到一個(gè)名為Clio的實(shí)時(shí)流水線中，該流水線僅使用板載計(jì)算，隨著機(jī)器人探索環(huán)境，在線構(gòu)建環(huán)境的分層3D場(chǎng)景圖。我們的最終貢獻(xiàn)是進(jìn)行了大量實(shí)驗(yàn)，表明Clio不僅可以實(shí)時(shí)構(gòu)建緊湊的開放集3D場(chǎng)景圖，而且通過將地圖限制在相關(guān)的語(yǔ)義概念上，還提高了任務(wù)執(zhí)行的準(zhǔn)確性。

3. 效果展示

我們提出了Clio，一種新穎的方法，用于在嵌入的開放集語(yǔ)義的情況下實(shí)時(shí)構(gòu)建任務(wù)驅(qū)動(dòng)的3D場(chǎng)景圖。我們從經(jīng)典的信息瓶頸原理汲取靈感，根據(jù)一組自然語(yǔ)言任務(wù)------例如"閱讀棕色教科書"------形成與任務(wù)相關(guān)的對(duì)象基元的聚類，并通過將場(chǎng)景聚類為與任務(wù)相關(guān)的語(yǔ)義區(qū)域，如"小廚房"或"工作區(qū)"來進(jìn)行聚類。

Clio使用Spot攜帶的筆記本電腦實(shí)時(shí)生成3D場(chǎng)景圖。我們展示了Spot能夠使用Clio的任務(wù)驅(qū)動(dòng)3D場(chǎng)景圖執(zhí)行用自然語(yǔ)言表達(dá)的抓取命令。

對(duì)地點(diǎn)聚類的定性示例。第一張圖顯示了通過類似房間類別標(biāo)簽的任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域。第二張圖顯示了通過任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域，這些任務(wù)提示是潛在房間和物體的混合。

4. 主要貢獻(xiàn)

我們的第一個(gè)貢獻(xiàn)是闡述任務(wù)驅(qū)動(dòng)的三維場(chǎng)景理解問題，其中機(jī)器人被給定一組在自然語(yǔ)言中指定的任務(wù)，并且需要構(gòu)建一個(gè)足以完成給定任務(wù)的最小地圖表示。更具體地說，我們假設(shè)機(jī)器人能夠感知環(huán)境中的任務(wù)無關(guān)基元，以一組三維對(duì)象段和三維無障礙區(qū)域的形式，并且必須將它們聚類成一個(gè)僅包含相關(guān)對(duì)象和區(qū)域（例如，房間）的任務(wù)相關(guān)壓縮表示。這個(gè)問題可以自然地使用經(jīng)典的信息瓶頸（IB）理論進(jìn)行公式化，該理論還提供了用于任務(wù)驅(qū)動(dòng)聚類的算法方法。

我們的第二個(gè)貢獻(xiàn)是將來自任務(wù)驅(qū)動(dòng)三維場(chǎng)景理解問題的凝聚IB算法應(yīng)用到問題中。具體而言，我們展示了如何使用CLIP嵌入獲取算法中所需的概率密度，并且表明由此產(chǎn)生的算法可以隨著機(jī)器人探索環(huán)境而逐步執(zhí)行，其計(jì)算復(fù)雜度不隨環(huán)境大小增加。

我們的第三個(gè)貢獻(xiàn)是將提出的任務(wù)驅(qū)動(dòng)聚類算法納入一個(gè)實(shí)時(shí)系統(tǒng)中，稱為Clio。Clio在操作開始時(shí)接收一組在自然語(yǔ)言中指定的任務(wù)列表：例如，這些可以是機(jī)器人在其生命周期內(nèi)或當(dāng)前部署期間被設(shè)想執(zhí)行的任務(wù)。然后，隨著機(jī)器人的操作，Clio實(shí)時(shí)創(chuàng)建一個(gè)層次地圖，即環(huán)境的三維場(chǎng)景圖，其中表示僅保留相關(guān)對(duì)象和區(qū)域的任務(wù)。與當(dāng)前用于開放集三維場(chǎng)景圖構(gòu)建的方法相反，這些方法僅限于離線操作，當(dāng)查詢大型視覺語(yǔ)言模型（VLMs）和大型語(yǔ)言模型（LLMs）時(shí)，并且Clio在實(shí)時(shí)和板載上運(yùn)行，僅依賴于輕量級(jí)基礎(chǔ)模型，例如CLIP。我們?cè)赗eplica數(shù)據(jù)集和四個(gè)真實(shí)環(huán)境中演示了Clio------一個(gè)公寓，一個(gè)辦公室，一個(gè)隔間和一個(gè)大型建筑場(chǎng)景。我們還展示了在一臺(tái)波士頓動(dòng)力Spot四足機(jī)器人上使用Clio進(jìn)行實(shí)時(shí)板載地圖制作。Clio不僅允許實(shí)時(shí)開放集三維場(chǎng)景圖構(gòu)建，而且通過限制地圖僅包含相關(guān)對(duì)象和區(qū)域來提高任務(wù)執(zhí)行的準(zhǔn)確性。我們?cè)趆ttps://github.com/MIT-SPARK/Clio上開源了Clio，并附帶了我們的自定義數(shù)據(jù)集。

5. 基本原理是啥？

Clio的前端接收RGB-D傳感器數(shù)據(jù)，并構(gòu)建物體基元的圖形，地點(diǎn)圖形以及背景的度量-語(yǔ)義3D網(wǎng)格。Clio的后端執(zhí)行增量聚合IB以根據(jù)用戶指定的任務(wù)列表對(duì)對(duì)象和區(qū)域進(jìn)行聚類。

Cubicle數(shù)據(jù)集中需要任務(wù)提供對(duì)象定義糾正的部分示例。圖中展示了兩組任務(wù)的Clio聚類結(jié)果，分別列在(b)和(c)下；在聚類期間，任務(wù)列表中包含了14個(gè)額外的相同任務(wù)，但為了清晰起見未顯示出來。

6. 實(shí)驗(yàn)結(jié)果

首先，我們觀察到任務(wù)驅(qū)動(dòng)的方法（表I中藍(lán)色填充的行）通常會(huì)在保留較少對(duì)象的同時(shí)獲得更好的性能指標(biāo)（"Objs"列）；這驗(yàn)證了我們的論斷，即度量-語(yǔ)義映射需要以任務(wù)為驅(qū)動(dòng)。具體來說，在某些情況下，與不考慮任務(wù)的基線相比，Clio 保留的對(duì)象數(shù)量要少一個(gè)數(shù)量級(jí)（與沒有信息瓶頸任務(wù)驅(qū)動(dòng)聚類的 Clio-Prim 中的對(duì)象數(shù)量相比）。其次，我們觀察到 Clio 在各個(gè)數(shù)據(jù)集上的表現(xiàn)大多優(yōu)于基線，在除了 Office 數(shù)據(jù)集的 IOU 和 SAcc 指標(biāo)之外的所有情況下，Clio-batch 和 Clio-online 排名都位居前兩位。Office 數(shù)據(jù)集中的許多對(duì)象（例如訂書機(jī)、自行車頭盔）通常被檢測(cè)為孤立的基元，因此我們看到任務(wù)的知識(shí)對(duì)這個(gè)數(shù)據(jù)集的影響較小，但仍然能夠改善所有其他指標(biāo)的性能。第三，我們觀察到 Clio 能夠在幾分之一秒內(nèi)運(yùn)行，比 ConceptGraphs 快約 6 倍；Khronos 和 Clio-Prim 也是實(shí)時(shí)運(yùn)行的，但在其他指標(biāo)方面性能不佳。最后，Clio-batch 和 Clio-online 在大多數(shù)情況下表現(xiàn)相似。它們性能上的差異是因?yàn)?Clio-online 是實(shí)時(shí)執(zhí)行的，可能根據(jù)需要丟棄幀以跟上相機(jī)圖像流。這種差異有時(shí)有助于性能指標(biāo)，有時(shí)則會(huì)妨礙性能指標(biāo)的提升。

雖然 Clio 是為開放集檢測(cè)而設(shè)計(jì)的，但我們使用的評(píng)估方法在閉集 Replica 數(shù)據(jù)集上展示了我們的任務(wù)感知映射公式不會(huì)降低閉集映射任務(wù)的性能。在這里，我們的任務(wù)列表是每個(gè) Replica 場(chǎng)景中存在的對(duì)象標(biāo)簽集，其中每個(gè)標(biāo)簽都被更改為"{類別}的圖像"。對(duì)于 Clio，在創(chuàng)建場(chǎng)景圖后，我們將每個(gè)檢測(cè)到的對(duì)象分配給與其余對(duì)象具有最高余弦相似度的標(biāo)簽。為了提高 CLIP 在 Replica 數(shù)據(jù)集的低紋理區(qū)域的可靠性，我們通過將稠密 CLIP 特征合并到 Clio 中，包含了全局上下文的 CLIP 向量。我們報(bào)告準(zhǔn)確率作為類平均召回（mAcc）和頻率加權(quán)的平均交并比（f-mIOU）。表II 顯示，Clio 達(dá)到了與領(lǐng)先的零樣本方法相當(dāng)?shù)男阅?，表明我們的任?wù)感知聚類不會(huì)降低閉集任務(wù)的性能。

由于手動(dòng)標(biāo)記語(yǔ)義 3D 區(qū)域是一個(gè)高度主觀的任務(wù)，我們通過一個(gè)代理閉集任務(wù)評(píng)估了 Clio 區(qū)域的性能，其中 Clio 獲得了場(chǎng)景的可能房間標(biāo)簽集作為任務(wù)。我們?cè)谌齻€(gè)數(shù)據(jù)集中標(biāo)記了房間：Office、Apartment 和 Building。我們不分析 Cubicle 或 Replica 數(shù)據(jù)集，因?yàn)樗鼈冎话瑔蝹€(gè)房間。我們將 α 設(shè)為 0，以禁用對(duì)空任務(wù)的分配，因?yàn)槊總€(gè)地點(diǎn)都與至少一個(gè)房間標(biāo)簽相關(guān)聯(lián)，并且我們?cè)谒袌?chǎng)景中保持所有參數(shù)不變。

我們使用精度和召回率指標(biāo)來比較我們提出的 CLIP 嵌入向量關(guān)聯(lián)策略，Clio（平均），以及另一種更為樸素的策略，Clio（最近），后者使用從仍然可以從其中看到地點(diǎn)節(jié)點(diǎn)的最近圖像中獲取的嵌入向量。此外，我們使用 Hydra的純幾何房間分割方法作為閉集性能的比較點(diǎn)。這次比較的結(jié)果顯示在表III 中，該表還包括 F1 分?jǐn)?shù)作為摘要統(tǒng)計(jì)量。表III 中的結(jié)果是在 5 次試驗(yàn)中平均的，并報(bào)告了所有指標(biāo)的標(biāo)準(zhǔn)偏差。我們注意到，我們選擇的關(guān)聯(lián)策略在 Office 和 Building 場(chǎng)景中優(yōu)于 Hydra的純幾何方法和更為樸素的 Clio（最近），但在 Apartment 方面的 F1 分?jǐn)?shù)方面表現(xiàn)相對(duì)較差。這是由于場(chǎng)景的性質(zhì)；Office 和 Building 場(chǎng)景包含帶標(biāo)簽的開放平面房間，需要語(yǔ)義知識(shí)來檢測(cè)（例如 Office 場(chǎng)景中的小廚房或 Building 場(chǎng)景中的樓梯間）。Apartment 主要包含幾何上不同的房間，這些房間可以用[7]中的幾何方法進(jìn)行直接分割，而 Clio 則會(huì)過度分割，這可以從我們的方法的高精度但低召回中看出。另一方面，與 Office 中存在的連接的語(yǔ)義相似區(qū)域相比，導(dǎo)致了欠分割和較低的召回率。

7. 限制性

盡管實(shí)驗(yàn)結(jié)果令人鼓舞，但我們的方法存在多個(gè)限制。首先，盡管我們的方法是zero-shot，并且不受任何特定基礎(chǔ)模型的限制，但在實(shí)施過程中確實(shí)繼承了一些基礎(chǔ)模型的限制，比如對(duì)提示調(diào)整的強(qiáng)烈敏感。例如，我們討論了不同CLIP模型對(duì)性能的影響。其次，我們目前在合并兩個(gè)基元時(shí)平均了CLIP向量，但考慮更具體的方法來結(jié)合它們的語(yǔ)義描述可能會(huì)更有趣。第三，如果兩個(gè)基元分別對(duì)同一任務(wù)具有相似的余弦相似度，但任務(wù)某種方式上需要將它們區(qū)分為單獨(dú)的對(duì)象時(shí)，Clio可能會(huì)過度聚類（例如，我們可能希望在擺放餐具時(shí)將叉子與刀子區(qū)分開來，盡管它們可能對(duì)任務(wù)有相似的相關(guān)性）。最后，我們目前考慮的是相對(duì)簡(jiǎn)單的單步任務(wù)。然而，將所提出的框架擴(kuò)展到與一組高級(jí)復(fù)雜任務(wù)一起工作將是可取的。

8. 總結(jié)

我們提出了一種面向任務(wù)的三維度量語(yǔ)義映射的形式化方法，其中機(jī)器人被提供了一系列自然語(yǔ)言任務(wù)，并且必須創(chuàng)建一個(gè)足以支持這些任務(wù)的地圖，其粒度和結(jié)構(gòu)是足夠的。我們已經(jīng)表明，這個(gè)問題可以用經(jīng)典的信息瓶頸來表達(dá)，并且已經(jīng)開發(fā)了聚合信息瓶頸算法的增量版本作為解決策略。我們已將所得算法集成到實(shí)時(shí)系統(tǒng)Clio中，該系統(tǒng)在機(jī)器人探索環(huán)境時(shí)構(gòu)建一個(gè)三維場(chǎng)景圖，包括任務(wù)相關(guān)的對(duì)象和區(qū)域。我們還通過展示它可以在Spot機(jī)器人上實(shí)時(shí)執(zhí)行并支持拾取和放置移動(dòng)操作任務(wù)，證明了Clio對(duì)機(jī)器人學(xué)的相關(guān)性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2576

文章
55056

瀏覽量
791471
機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31092

瀏覽量
222330

原文標(biāo)題：MIT最新開源！Clio：如何確定機(jī)器人語(yǔ)義地圖的細(xì)粒度？

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

如何設(shè)定機(jī)器人語(yǔ)義地圖的細(xì)粒度級(jí)別

評(píng)論