91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何設(shè)定機(jī)器人語(yǔ)義地圖的細(xì)粒度級(jí)別

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-11-12 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0. 這篇文章干了啥?

機(jī)器人學(xué)中的一個(gè)基本問題是創(chuàng)建機(jī)器人觀察到的場(chǎng)景的有用地圖表示,其中有用性由機(jī)器人利用地圖完成感興趣的任務(wù)的能力來衡量。最近的研究,包括構(gòu)建語(yǔ)義度量三維地圖,通過檢測(cè)對(duì)象和區(qū)域與封閉的語(yǔ)義標(biāo)簽集對(duì)應(yīng)的工作。然而,封閉集檢測(cè)在能夠表示的概念集方面存在固有的限制,并且不能很好地處理自然語(yǔ)言的內(nèi)在歧義性和可變性。為了克服這些限制,一組新的方法開始利用視覺語(yǔ)言基礎(chǔ)模型進(jìn)行開放集語(yǔ)義理解。這些方法使用一個(gè)無類別分割網(wǎng)絡(luò)(SegmentAnything或SAM)生成圖像的細(xì)粒度段,然后應(yīng)用一個(gè)基礎(chǔ)模型得到描述每個(gè)段的開放集語(yǔ)義的嵌入向量。然后通過將段關(guān)聯(lián)起來構(gòu)造對(duì)象,只要它們的嵌入向量在預(yù)定義的相似度閾值內(nèi)。然而,這些方法把調(diào)整適當(dāng)?shù)拈撝档睦щy任務(wù)留給了用戶,以控制從場(chǎng)景中提取的段的數(shù)量,以及用于決定是否必須將兩個(gè)段聚類在一起的閾值。更重要的是,這些方法沒有捕捉到地圖中語(yǔ)義概念的選擇不僅僅受語(yǔ)義相似性驅(qū)動(dòng),而且是內(nèi)在于任務(wù)的。例如,考慮一個(gè)被指派移動(dòng)鋼琴的機(jī)器人。機(jī)器人通過區(qū)分所有鍵和弦的位置幾乎不會(huì)增加價(jià)值,但可以通過將鋼琴視為一個(gè)大對(duì)象來完成任務(wù)。另一方面,被指派演奏鋼琴的機(jī)器人必須將鋼琴視為許多對(duì)象(即鍵)。被指派調(diào)音鋼琴的機(jī)器人必須將鋼琴視為更多的對(duì)象------考慮到弦、調(diào)音銷等。同樣,像一堆衣服應(yīng)該表示為一個(gè)單獨(dú)的堆還是單獨(dú)的衣服,或者一片森林應(yīng)該表示為一個(gè)單獨(dú)的地貌區(qū)域還是樹枝、葉子、樹干等,直到我們明確了表示必須支持的任務(wù),這些問題仍然沒有得到解決。人類不僅在決定要表示哪些對(duì)象以及如何表示時(shí)考慮任務(wù)(有意識(shí)或無意識(shí)),而且還能相應(yīng)地忽略與任務(wù)無關(guān)的場(chǎng)景部分。

下面一起來閱讀一下這項(xiàng)工作~

1. 論文信息

標(biāo)題:Clio: Real-time Task-Driven Open-Set 3D Scene Graphs

作者:Dominic Maggio, Yun Chang, Nathan Hughes, Matthew Trang, Dan Griffith, Carlyn Dougherty, Eric Cristofalo, Lukas Schmid, Luca Carlone

機(jī)構(gòu):MIT

原文鏈接:https://arxiv.org/abs/2404.13696

代碼鏈接:https://github.com/MIT-SPARK/Clio

2. 摘要

現(xiàn)代無關(guān)類別圖像分割工具(例如SegmentAnything)和開放集語(yǔ)義理解(例如CLIP)為機(jī)器人感知和地圖繪制提供了前所未有的機(jī)會(huì)。雖然傳統(tǒng)的封閉集度量語(yǔ)義地圖僅限于幾十個(gè)或幾百個(gè)語(yǔ)義類別,但現(xiàn)在我們可以建立包含大量對(duì)象和無數(shù)語(yǔ)義變體的地圖。這給我們留下了一個(gè)基本問題:機(jī)器人必須在其地圖表示中包含什么樣的對(duì)象(更一般地說,包含什么樣的語(yǔ)義概念)才是正確的粒度?雖然相關(guān)工作通過調(diào)整對(duì)象檢測(cè)的閾值來隱式選擇粒度級(jí)別,但我們認(rèn)為這樣的選擇本質(zhì)上取決于任務(wù)。本文的第一個(gè)貢獻(xiàn)是提出了一個(gè)任務(wù)驅(qū)動(dòng)的3D場(chǎng)景理解問題,其中機(jī)器人被給定了一系列用自然語(yǔ)言描述的任務(wù),必須選擇足以完成任務(wù)的粒度和對(duì)象子集以及場(chǎng)景結(jié)構(gòu)并將其保留在其地圖中。我們表明,可以使用信息瓶頸(IB)這一已建立的信息論框架來自然地構(gòu)建這個(gè)問題。第二個(gè)貢獻(xiàn)是一種基于聚合式信息瓶頸方法的任務(wù)驅(qū)動(dòng)的3D場(chǎng)景理解算法,能夠?qū)h(huán)境中的3D基元聚類成與任務(wù)相關(guān)的對(duì)象和區(qū)域,并逐步執(zhí)行。第三個(gè)貢獻(xiàn)是將我們的任務(wù)驅(qū)動(dòng)聚類算法集成到一個(gè)名為Clio的實(shí)時(shí)流水線中,該流水線僅使用板載計(jì)算,隨著機(jī)器人探索環(huán)境,在線構(gòu)建環(huán)境的分層3D場(chǎng)景圖。我們的最終貢獻(xiàn)是進(jìn)行了大量實(shí)驗(yàn),表明Clio不僅可以實(shí)時(shí)構(gòu)建緊湊的開放集3D場(chǎng)景圖,而且通過將地圖限制在相關(guān)的語(yǔ)義概念上,還提高了任務(wù)執(zhí)行的準(zhǔn)確性。

3. 效果展示

我們提出了Clio,一種新穎的方法,用于在嵌入的開放集語(yǔ)義的情況下實(shí)時(shí)構(gòu)建任務(wù)驅(qū)動(dòng)的3D場(chǎng)景圖。我們從經(jīng)典的信息瓶頸原理汲取靈感,根據(jù)一組自然語(yǔ)言任務(wù)------例如"閱讀棕色教科書"------形成與任務(wù)相關(guān)的對(duì)象基元的聚類,并通過將場(chǎng)景聚類為與任務(wù)相關(guān)的語(yǔ)義區(qū)域,如"小廚房"或"工作區(qū)"來進(jìn)行聚類。

ca30441e-905d-11ef-a511-92fbcf53809c.jpg

Clio使用Spot攜帶的筆記本電腦實(shí)時(shí)生成3D場(chǎng)景圖。我們展示了Spot能夠使用Clio的任務(wù)驅(qū)動(dòng)3D場(chǎng)景圖執(zhí)行用自然語(yǔ)言表達(dá)的抓取命令。

ca5d93a6-905d-11ef-a511-92fbcf53809c.jpg

對(duì)地點(diǎn)聚類的定性示例。第一張圖顯示了通過類似房間類別標(biāo)簽的任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域。第二張圖顯示了通過任務(wù)提示進(jìn)行聚類而產(chǎn)生的區(qū)域,這些任務(wù)提示是潛在房間和物體的混合。

ca8d9e7a-905d-11ef-a511-92fbcf53809c.jpg

4. 主要貢獻(xiàn)

我們的第一個(gè)貢獻(xiàn)是闡述任務(wù)驅(qū)動(dòng)的三維場(chǎng)景理解問題,其中機(jī)器人被給定一組在自然語(yǔ)言中指定的任務(wù),并且需要構(gòu)建一個(gè)足以完成給定任務(wù)的最小地圖表示。更具體地說,我們假設(shè)機(jī)器人能夠感知環(huán)境中的任務(wù)無關(guān)基元,以一組三維對(duì)象段和三維無障礙區(qū)域的形式,并且必須將它們聚類成一個(gè)僅包含相關(guān)對(duì)象和區(qū)域(例如,房間)的任務(wù)相關(guān)壓縮表示。這個(gè)問題可以自然地使用經(jīng)典的信息瓶頸(IB)理論進(jìn)行公式化,該理論還提供了用于任務(wù)驅(qū)動(dòng)聚類的算法方法。

我們的第二個(gè)貢獻(xiàn)是將來自任務(wù)驅(qū)動(dòng)三維場(chǎng)景理解問題的凝聚IB算法應(yīng)用到問題中。具體而言,我們展示了如何使用CLIP嵌入獲取算法中所需的概率密度,并且表明由此產(chǎn)生的算法可以隨著機(jī)器人探索環(huán)境而逐步執(zhí)行,其計(jì)算復(fù)雜度不隨環(huán)境大小增加。

我們的第三個(gè)貢獻(xiàn)是將提出的任務(wù)驅(qū)動(dòng)聚類算法納入一個(gè)實(shí)時(shí)系統(tǒng)中,稱為Clio。Clio在操作開始時(shí)接收一組在自然語(yǔ)言中指定的任務(wù)列表:例如,這些可以是機(jī)器人在其生命周期內(nèi)或當(dāng)前部署期間被設(shè)想執(zhí)行的任務(wù)。然后,隨著機(jī)器人的操作,Clio實(shí)時(shí)創(chuàng)建一個(gè)層次地圖,即環(huán)境的三維場(chǎng)景圖,其中表示僅保留相關(guān)對(duì)象和區(qū)域的任務(wù)。與當(dāng)前用于開放集三維場(chǎng)景圖構(gòu)建的方法相反,這些方法僅限于離線操作,當(dāng)查詢大型視覺語(yǔ)言模型(VLMs)和大型語(yǔ)言模型(LLMs)時(shí),并且Clio在實(shí)時(shí)和板載上運(yùn)行,僅依賴于輕量級(jí)基礎(chǔ)模型,例如CLIP。我們?cè)赗eplica數(shù)據(jù)集和四個(gè)真實(shí)環(huán)境中演示了Clio------一個(gè)公寓,一個(gè)辦公室,一個(gè)隔間和一個(gè)大型建筑場(chǎng)景。我們還展示了在一臺(tái)波士頓動(dòng)力Spot四足機(jī)器人上使用Clio進(jìn)行實(shí)時(shí)板載地圖制作。Clio不僅允許實(shí)時(shí)開放集三維場(chǎng)景圖構(gòu)建,而且通過限制地圖僅包含相關(guān)對(duì)象和區(qū)域來提高任務(wù)執(zhí)行的準(zhǔn)確性。我們?cè)趆ttps://github.com/MIT-SPARK/Clio上開源了Clio,并附帶了我們的自定義數(shù)據(jù)集。

5. 基本原理是啥?

Clio的前端接收RGB-D傳感器數(shù)據(jù),并構(gòu)建物體基元的圖形,地點(diǎn)圖形以及背景的度量-語(yǔ)義3D網(wǎng)格。Clio的后端執(zhí)行增量聚合IB以根據(jù)用戶指定的任務(wù)列表對(duì)對(duì)象和區(qū)域進(jìn)行聚類。

cab403a8-905d-11ef-a511-92fbcf53809c.jpg

Cubicle數(shù)據(jù)集中需要任務(wù)提供對(duì)象定義糾正的部分示例。圖中展示了兩組任務(wù)的Clio聚類結(jié)果,分別列在(b)和(c)下;在聚類期間,任務(wù)列表中包含了14個(gè)額外的相同任務(wù),但為了清晰起見未顯示出來。

cae8f22a-905d-11ef-a511-92fbcf53809c.jpg

6. 實(shí)驗(yàn)結(jié)果

首先,我們觀察到任務(wù)驅(qū)動(dòng)的方法(表I中藍(lán)色填充的行)通常會(huì)在保留較少對(duì)象的同時(shí)獲得更好的性能指標(biāo)("Objs"列);這驗(yàn)證了我們的論斷,即度量-語(yǔ)義映射需要以任務(wù)為驅(qū)動(dòng)。具體來說,在某些情況下,與不考慮任務(wù)的基線相比,Clio 保留的對(duì)象數(shù)量要少一個(gè)數(shù)量級(jí)(與沒有信息瓶頸任務(wù)驅(qū)動(dòng)聚類的 Clio-Prim 中的對(duì)象數(shù)量相比)。其次,我們觀察到 Clio 在各個(gè)數(shù)據(jù)集上的表現(xiàn)大多優(yōu)于基線,在除了 Office 數(shù)據(jù)集的 IOU 和 SAcc 指標(biāo)之外的所有情況下,Clio-batch 和 Clio-online 排名都位居前兩位。Office 數(shù)據(jù)集中的許多對(duì)象(例如訂書機(jī)、自行車頭盔)通常被檢測(cè)為孤立的基元,因此我們看到任務(wù)的知識(shí)對(duì)這個(gè)數(shù)據(jù)集的影響較小,但仍然能夠改善所有其他指標(biāo)的性能。第三,我們觀察到 Clio 能夠在幾分之一秒內(nèi)運(yùn)行,比 ConceptGraphs 快約 6 倍;Khronos 和 Clio-Prim 也是實(shí)時(shí)運(yùn)行的,但在其他指標(biāo)方面性能不佳。最后,Clio-batch 和 Clio-online 在大多數(shù)情況下表現(xiàn)相似。它們性能上的差異是因?yàn)?Clio-online 是實(shí)時(shí)執(zhí)行的,可能根據(jù)需要丟棄幀以跟上相機(jī)圖像流。這種差異有時(shí)有助于性能指標(biāo),有時(shí)則會(huì)妨礙性能指標(biāo)的提升。

cb2c4d68-905d-11ef-a511-92fbcf53809c.jpg

雖然 Clio 是為開放集檢測(cè)而設(shè)計(jì)的,但我們使用的評(píng)估方法在閉集 Replica 數(shù)據(jù)集上展示了我們的任務(wù)感知映射公式不會(huì)降低閉集映射任務(wù)的性能。在這里,我們的任務(wù)列表是每個(gè) Replica 場(chǎng)景中存在的對(duì)象標(biāo)簽集,其中每個(gè)標(biāo)簽都被更改為"{類別}的圖像"。對(duì)于 Clio,在創(chuàng)建場(chǎng)景圖后,我們將每個(gè)檢測(cè)到的對(duì)象分配給與其余對(duì)象具有最高余弦相似度的標(biāo)簽。為了提高 CLIP 在 Replica 數(shù)據(jù)集的低紋理區(qū)域的可靠性,我們通過將稠密 CLIP 特征合并到 Clio 中,包含了全局上下文的 CLIP 向量。我們報(bào)告準(zhǔn)確率作為類平均召回(mAcc)和頻率加權(quán)的平均交并比(f-mIOU)。表II 顯示,Clio 達(dá)到了與領(lǐng)先的零樣本方法相當(dāng)?shù)男阅?,表明我們的任?wù)感知聚類不會(huì)降低閉集任務(wù)的性能。

cb7217e4-905d-11ef-a511-92fbcf53809c.jpg

由于手動(dòng)標(biāo)記語(yǔ)義 3D 區(qū)域是一個(gè)高度主觀的任務(wù),我們通過一個(gè)代理閉集任務(wù)評(píng)估了 Clio 區(qū)域的性能,其中 Clio 獲得了場(chǎng)景的可能房間標(biāo)簽集作為任務(wù)。我們?cè)谌齻€(gè)數(shù)據(jù)集中標(biāo)記了房間:Office、Apartment 和 Building。我們不分析 Cubicle 或 Replica 數(shù)據(jù)集,因?yàn)樗鼈冎话瑔蝹€(gè)房間。我們將 α 設(shè)為 0,以禁用對(duì)空任務(wù)的分配,因?yàn)槊總€(gè)地點(diǎn)都與至少一個(gè)房間標(biāo)簽相關(guān)聯(lián),并且我們?cè)谒袌?chǎng)景中保持所有參數(shù)不變。

我們使用精度和召回率指標(biāo)來比較我們提出的 CLIP 嵌入向量關(guān)聯(lián)策略,Clio(平均),以及另一種更為樸素的策略,Clio(最近),后者使用從仍然可以從其中看到地點(diǎn)節(jié)點(diǎn)的最近圖像中獲取的嵌入向量。此外,我們使用 Hydra的純幾何房間分割方法作為閉集性能的比較點(diǎn)。這次比較的結(jié)果顯示在表III 中,該表還包括 F1 分?jǐn)?shù)作為摘要統(tǒng)計(jì)量。表III 中的結(jié)果是在 5 次試驗(yàn)中平均的,并報(bào)告了所有指標(biāo)的標(biāo)準(zhǔn)偏差。我們注意到,我們選擇的關(guān)聯(lián)策略在 Office 和 Building 場(chǎng)景中優(yōu)于 Hydra的純幾何方法和更為樸素的 Clio(最近),但在 Apartment 方面的 F1 分?jǐn)?shù)方面表現(xiàn)相對(duì)較差。這是由于場(chǎng)景的性質(zhì);Office 和 Building 場(chǎng)景包含帶標(biāo)簽的開放平面房間,需要語(yǔ)義知識(shí)來檢測(cè)(例如 Office 場(chǎng)景中的小廚房或 Building 場(chǎng)景中的樓梯間)。Apartment 主要包含幾何上不同的房間,這些房間可以用[7]中的幾何方法進(jìn)行直接分割,而 Clio 則會(huì)過度分割,這可以從我們的方法的高精度但低召回中看出。另一方面,與 Office 中存在的連接的語(yǔ)義相似區(qū)域相比,導(dǎo)致了欠分割和較低的召回率。

cba14f8c-905d-11ef-a511-92fbcf53809c.jpg

7. 限制性

盡管實(shí)驗(yàn)結(jié)果令人鼓舞,但我們的方法存在多個(gè)限制。首先,盡管我們的方法是zero-shot,并且不受任何特定基礎(chǔ)模型的限制,但在實(shí)施過程中確實(shí)繼承了一些基礎(chǔ)模型的限制,比如對(duì)提示調(diào)整的強(qiáng)烈敏感。例如,我們討論了不同CLIP模型對(duì)性能的影響。其次,我們目前在合并兩個(gè)基元時(shí)平均了CLIP向量,但考慮更具體的方法來結(jié)合它們的語(yǔ)義描述可能會(huì)更有趣。第三,如果兩個(gè)基元分別對(duì)同一任務(wù)具有相似的余弦相似度,但任務(wù)某種方式上需要將它們區(qū)分為單獨(dú)的對(duì)象時(shí),Clio可能會(huì)過度聚類(例如,我們可能希望在擺放餐具時(shí)將叉子與刀子區(qū)分開來,盡管它們可能對(duì)任務(wù)有相似的相關(guān)性)。最后,我們目前考慮的是相對(duì)簡(jiǎn)單的單步任務(wù)。然而,將所提出的框架擴(kuò)展到與一組高級(jí)復(fù)雜任務(wù)一起工作將是可取的。

8. 總結(jié)

我們提出了一種面向任務(wù)的三維度量語(yǔ)義映射的形式化方法,其中機(jī)器人被提供了一系列自然語(yǔ)言任務(wù),并且必須創(chuàng)建一個(gè)足以支持這些任務(wù)的地圖,其粒度和結(jié)構(gòu)是足夠的。我們已經(jīng)表明,這個(gè)問題可以用經(jīng)典的信息瓶頸來表達(dá),并且已經(jīng)開發(fā)了聚合信息瓶頸算法的增量版本作為解決策略。我們已將所得算法集成到實(shí)時(shí)系統(tǒng)Clio中,該系統(tǒng)在機(jī)器人探索環(huán)境時(shí)構(gòu)建一個(gè)三維場(chǎng)景圖,包括任務(wù)相關(guān)的對(duì)象和區(qū)域。我們還通過展示它可以在Spot機(jī)器人上實(shí)時(shí)執(zhí)行并支持拾取和放置移動(dòng)操作任務(wù),證明了Clio對(duì)機(jī)器人學(xué)的相關(guān)性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2576

    文章

    55056

    瀏覽量

    791471
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31092

    瀏覽量

    222330

原文標(biāo)題:MIT最新開源!Clio:如何確定機(jī)器人語(yǔ)義地圖的細(xì)粒度?

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    面向視覺語(yǔ)言導(dǎo)航的任務(wù)驅(qū)動(dòng)式地圖學(xué)習(xí)框架MapDream介紹

    在視覺語(yǔ)言導(dǎo)航(VLN)中,地圖長(zhǎng)期作為獨(dú)立模塊構(gòu)建,并通過固定接口交由導(dǎo)航策略使用。無論是BEV網(wǎng)格、拓?fù)鋱D還是語(yǔ)義記憶模塊,這些表示大多脫離策略學(xué)習(xí)而設(shè)計(jì)。結(jié)果是,機(jī)器人即使掌握?qǐng)鼍暗男畔?,也仍可能繞行甚至偏離目標(biāo),因?yàn)?/div>
    的頭像 發(fā)表于 03-02 10:40 ?373次閱讀
    面向視覺語(yǔ)言導(dǎo)航的任務(wù)驅(qū)動(dòng)式<b class='flag-5'>地圖</b>學(xué)習(xí)框架MapDream介紹

    人形機(jī)器人產(chǎn)業(yè)地圖:一文看清千億賽道的關(guān)鍵拼圖

    當(dāng)人形機(jī)器人從科幻走進(jìn)現(xiàn)實(shí),其背后是一個(gè)龐大而復(fù)雜的產(chǎn)業(yè)體系正在快速成型。對(duì)于從業(yè)者、投資者或任何希望理解這一領(lǐng)域的人而言,一張清晰的“產(chǎn)業(yè)地圖”就如同航海圖,能指引你穿越技術(shù)迷霧,看清價(jià)值鏈的全貌與核心玩家的位置。那么,這張重要的產(chǎn)業(yè)
    的頭像 發(fā)表于 02-14 21:16 ?1.2w次閱讀

    Istio服務(wù)網(wǎng)格生產(chǎn)環(huán)境性能調(diào)優(yōu)的最佳實(shí)踐

    隨著微服務(wù)架構(gòu)的普及,服務(wù)間通信的復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)的應(yīng)用層負(fù)載均衡和服務(wù)發(fā)現(xiàn)方案已經(jīng)無法滿足現(xiàn)代云原生應(yīng)用的需求。Istio作為目前最成熟的服務(wù)網(wǎng)格解決方案,通過在數(shù)據(jù)平面注入Envoy代理,實(shí)現(xiàn)了對(duì)服務(wù)間流量的細(xì)粒度控制,而無需修改應(yīng)用代碼。
    的頭像 發(fā)表于 01-20 15:40 ?215次閱讀

    Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

    在視覺語(yǔ)言導(dǎo)航(VLN)中,機(jī)器人長(zhǎng)期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開,畫面節(jié)節(jié)推進(jìn),但模型并不知道自己在自然語(yǔ)言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認(rèn)為,引入語(yǔ)義進(jìn)展推理,是破解長(zhǎng)程導(dǎo)
    的頭像 發(fā)表于 12-03 09:27 ?356次閱讀
    Progress-Think框架賦能<b class='flag-5'>機(jī)器人</b>首次實(shí)現(xiàn)<b class='flag-5'>語(yǔ)義</b>進(jìn)展推理

    小蘿卜機(jī)器人的故事

    經(jīng)過我的申請(qǐng), 馬老師發(fā)放了, 小蘿卜機(jī)器人的, 開發(fā)權(quán)限, 原來的小蘿卜公司, 因?yàn)榻?jīng)營(yíng)不善倒閉, 作為科研產(chǎn)品, 幾個(gè)技術(shù)對(duì)此惋惜, 自掏腰包, 要讓小蘿卜機(jī)器人, 再生, 每次聽到小蘿卜說
    發(fā)表于 10-23 05:24

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源模型的設(shè)計(jì)原則也采用了類似的大規(guī)模細(xì)粒度 MoE 架構(gòu)。但大規(guī)模 MoE 模型為推理系統(tǒng)帶來了新的挑戰(zhàn),如高顯存
    的頭像 發(fā)表于 09-06 15:21 ?1237次閱讀
    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    智能制造工業(yè)機(jī)器人技術(shù)發(fā)展趨勢(shì)

    (一)大范圍動(dòng)態(tài)場(chǎng)景理解 工業(yè)機(jī)器人在自主制造場(chǎng)景中,對(duì)環(huán)境和運(yùn)行狀態(tài)感知要求高,作業(yè)環(huán)境多變、狀態(tài)難測(cè)。需構(gòu)建動(dòng)態(tài)語(yǔ)義地圖,解決機(jī)器人精細(xì)化路徑規(guī)劃、協(xié)同作業(yè)控制難題,實(shí)時(shí)感知
    的頭像 發(fā)表于 07-31 09:43 ?932次閱讀
    智能制造工業(yè)<b class='flag-5'>機(jī)器人</b>技術(shù)發(fā)展趨勢(shì)

    Commvault Cloud平臺(tái)如何應(yīng)對(duì)勒索軟件攻擊

    在之前的文章中,我們探討了可能影響AD小規(guī)模中斷的因素,例如意外刪除對(duì)象等,以及為何快速、細(xì)粒度的恢復(fù)至關(guān)重要。
    的頭像 發(fā)表于 07-29 15:07 ?786次閱讀

    工業(yè)機(jī)器人的特點(diǎn)

    生產(chǎn)可以提高產(chǎn)品品質(zhì)。通過設(shè)定相同的程序,機(jī)器人可實(shí)現(xiàn)重復(fù)操作,保證了產(chǎn)品的標(biāo)準(zhǔn)化;在精細(xì)化生產(chǎn)方面,工業(yè)機(jī)器人可實(shí)現(xiàn)低于0.1毫米的運(yùn)動(dòng)精度,可以完成精細(xì)的雕刻工作。提高產(chǎn)出 由于機(jī)器人
    發(fā)表于 07-26 11:22

    盤點(diǎn)#機(jī)器人開發(fā)平臺(tái)

    地瓜機(jī)器人RDK X5開發(fā)套件地瓜機(jī)器人RDK X5開發(fā)套件產(chǎn)品介紹 旭日5芯片10TOPs算力-電子發(fā)燒友網(wǎng)機(jī)器人開發(fā)套件 Kria KR260機(jī)器人開發(fā)套件 Kria KR260-
    發(fā)表于 05-13 15:02

    詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人的工作原理

    可控制在幾十厘米以內(nèi)。Wi - Fi 定位通過檢測(cè)周圍 Wi - Fi 信號(hào)的強(qiáng)度和分布來確定機(jī)器人的位置,雖然精度相對(duì)較低,但可以作為輔助定位手段,增強(qiáng)定位的穩(wěn)定性和可靠性。 地圖匹配與定位校正
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會(huì):ROS2機(jī)器人視覺與地圖構(gòu)建技術(shù) 通過對(duì)本書第7章(ROS2視覺應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對(duì)機(jī)器人視覺感知和自主導(dǎo)航的核心技術(shù)有了更深入的理解。以下是我
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    的知識(shí),還需要對(duì)ROS 2的節(jié)點(diǎn)通信和數(shù)據(jù)處理有一定的了解。通過實(shí)踐這一部分內(nèi)容,我掌握了如何在ROS 2中實(shí)現(xiàn)二維碼識(shí)別,這對(duì)于提高機(jī)器人的智能性和交互性具有重要意義。 地圖構(gòu)建:SLAM技術(shù)
    發(fā)表于 04-27 11:42

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識(shí)

    地圖構(gòu)建→路徑規(guī)劃→動(dòng)態(tài)避障)等等 2. 機(jī)器人功能開發(fā) 相較于ROS入門21講,書中更是詳細(xì)書寫了關(guān)于機(jī)器人的功能開發(fā),并且十分完善,教程詳盡 傳感器數(shù)據(jù)處理:機(jī)器人通常配備多種傳感
    發(fā)表于 04-27 11:24

    芯盾時(shí)代解決方案守護(hù)企業(yè)數(shù)據(jù)安全

    想要消除“過度信任”,零信任是最好的選擇。與基于網(wǎng)絡(luò)位置構(gòu)建信任區(qū)的傳統(tǒng)網(wǎng)絡(luò)安全架構(gòu)相比,零信任默認(rèn)所有網(wǎng)絡(luò)流量不可信,需要基于認(rèn)證和授權(quán)重構(gòu)訪問控制的信任基礎(chǔ),從網(wǎng)絡(luò)中心化走向身份中心化,以身份為中心實(shí)施細(xì)粒度的動(dòng)態(tài)訪問控制。
    的頭像 發(fā)表于 04-18 15:48 ?955次閱讀