91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

世界模型在實體機器人上能發(fā)揮多大的作用?

新機器視覺 ? 來源:機器之心 ? 作者:機器之心 ? 2022-07-01 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

世界模型在實體機器人上能發(fā)揮多大的作用?

教機器人解決現(xiàn)實世界中的復(fù)雜任務(wù),一直是機器人研究的基礎(chǔ)問題。深度強化學(xué)習(xí)提供了一種流行的機器人學(xué)習(xí)方法,讓機器人能夠通過反復(fù)試驗改善其行為。然而,當(dāng)前的算法需要與環(huán)境進行過多的交互才能學(xué)習(xí)成功,這使得它們不適用于某些現(xiàn)實世界的任務(wù)。 為現(xiàn)實世界學(xué)習(xí)準(zhǔn)確的世界模型是一個巨大的開放性挑戰(zhàn)。在最近的一項研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新進展,在最直接和最基本的問題設(shè)置中訓(xùn)練了各種機器人:無需模擬器或示范學(xué)習(xí),就能實現(xiàn)現(xiàn)實世界中的在線強化學(xué)習(xí)。

a9d87b74-f879-11ec-ba43-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多倫多大學(xué)等機構(gòu)在 2021 年提出的一種。如下圖 2 所示,Dreamer 從過去經(jīng)驗的回放緩存中學(xué)習(xí)世界模型,從世界模型的潛在空間中想象的 rollout 中學(xué)習(xí)行為,并不斷與環(huán)境交互以探索和改進其行為。研究者的目標(biāo)是在現(xiàn)實世界中推動機器人學(xué)習(xí)的極限,并提供一個強大的平臺來支持未來的工作。

a9f09240-f879-11ec-ba43-dac502259ad0.png

總體來說,這項研究的貢獻在于: 1、Dreamer on Robots。研究者將 Dreamer 應(yīng)用于 4 個機器人,無需引入新算法直接在現(xiàn)實世界中展示了成功的學(xué)習(xí)成果。這些任務(wù)涵蓋了一系列挑戰(zhàn),包括不同的行動空間、感官模式和獎勵結(jié)構(gòu)。

a9ff6b08-f879-11ec-ba43-dac502259ad0.gif

2、1 小時內(nèi)學(xué)會步行。研究者在現(xiàn)實世界中從零開始教四足機器人翻身、站起來并在 1 小時內(nèi)學(xué)會步行。

aa7a2906-f879-11ec-ba43-dac502259ad0.gif

此外,他們發(fā)現(xiàn)機器人會在 10 分鐘內(nèi)能學(xué)會承受推力或快速翻身并重新站起來。

aa9063c4-f879-11ec-ba43-dac502259ad0.gif

3、視覺拾取和放置。研究者訓(xùn)練機械臂從稀疏獎勵中學(xué)會拾取和放置對象,這需要從像素定位對象并將圖像與本體感受輸入融合。此處學(xué)習(xí)到的行為優(yōu)于無模型智能體,并接近人類表現(xiàn)。

ab569580-f879-11ec-ba43-dac502259ad0.gif

abc96b78-f879-11ec-ba43-dac502259ad0.gif

4、開源。研究者公開發(fā)布了所有實驗的軟件基礎(chǔ)架構(gòu),它支持不同的動作空間和感官模式,為未來研究現(xiàn)實世界中機器人學(xué)習(xí)的世界模型提供了一個靈活的平臺。 方法 該研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理機器人上進行在線學(xué)習(xí)(online learning),無需模擬器,總體架構(gòu)如上圖 2 所示。Dreamer 從過去經(jīng)驗的回放緩沖區(qū)中學(xué)習(xí)世界模型,使用參與者 - 評價者算法從學(xué)習(xí)模型預(yù)測的軌跡中學(xué)習(xí)行為,并將其行為部署在環(huán)境中來不斷提升回放緩沖區(qū)。 該研究將學(xué)習(xí)更新與數(shù)據(jù)收集解耦,以滿足延遲要求并實現(xiàn)快速訓(xùn)練而無需等待環(huán)境變化。在該研究的實現(xiàn)中,一個學(xué)習(xí)線程持續(xù)訓(xùn)練世界模型和參與者 - 評價者行為,同時一個參與者線程并行計算環(huán)境交互動作。 世界模型是一個學(xué)習(xí)預(yù)測環(huán)境動態(tài)的深度神經(jīng)網(wǎng)絡(luò),如下圖 3(a)所示。

abef699a-f879-11ec-ba43-dac502259ad0.png

世界模型可以被認(rèn)為是機器人自主學(xué)習(xí)環(huán)境的快速模擬器,在探索現(xiàn)實世界時不斷改進其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018),它由四個組件組成:

ac0362f6-f879-11ec-ba43-dac502259ad0.png

世界模型表征了與任務(wù)無關(guān)的動態(tài)知識,而參與者 - 評價者算法負(fù)責(zé)學(xué)習(xí)特定于當(dāng)前任務(wù)的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預(yù)測的 rollout 中學(xué)習(xí)行為,而無需解碼觀察結(jié)果。這可以在單個 GPU 上以 16K 的批大小進行大規(guī)模并行行為學(xué)習(xí),類似于專門的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評價者算法由兩個神經(jīng)網(wǎng)絡(luò)組成:

ac16d4d0-f879-11ec-ba43-dac502259ad0.png

參與者網(wǎng)絡(luò)的作用是為每個潛在模型狀態(tài) s_t 學(xué)習(xí)成功動作的分布,以最大化未來預(yù)測任務(wù)獎勵(reward)的總和。評價者網(wǎng)絡(luò)通過時間差異學(xué)習(xí)來學(xué)習(xí)預(yù)測未來任務(wù)獎勵的總和(Sutton 和 Barto,2018 ),這允許算法學(xué)習(xí)長期策略。 與 Hafner et al. (2020) 相比,Dreamer 方法沒有訓(xùn)練頻率超參數(shù),因為學(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)收集并行進行,沒有速率限制。 實驗 研究者在 4 個機器人上評估了 Dreamer,為每個機器人分配了不同的任務(wù),并將其性能與算法和人類基線進行比較,目的是評估近期學(xué)習(xí)世界模型的成功是否能夠直接在現(xiàn)實世界中實現(xiàn)樣本高效的機器人學(xué)習(xí)。 這些實驗代表了常見的機器人任務(wù),例如運動、操縱和導(dǎo)航,帶來了各種各樣的挑戰(zhàn),包括連續(xù)和離散的動作、密集和稀疏的獎勵、本體感受和圖像觀察,以及傳感器融合。 A1 機器狗四足步行 如圖 4 所示,經(jīng)過一小時的訓(xùn)練,Dreamer 學(xué)會了不斷地讓機器人從其背部翻過來、站起來,然后向前走。在訓(xùn)練的前 5 分鐘,機器人設(shè)法從背部翻滾過來并用腳著地。20 分鐘后,它學(xué)會了如何站起來。大約 1 小時后,機器人學(xué)會了一種叉式步態(tài),以所需的速度向前行走。

ac232ed8-f879-11ec-ba43-dac502259ad0.png

在成功完成這項任務(wù)后,研究者用一根棍子反復(fù)敲打機器人的四足來測試算法的魯棒性,如圖 8 所示。在額外在線學(xué)習(xí)的 10 分鐘內(nèi),機器人會適應(yīng)并承受推力或快速翻身站穩(wěn)。相比之下,SAC 也很快學(xué)會了翻身,但由于數(shù)據(jù)預(yù)算(data budget)太小,無法站立或行走。

ac3942ae-f879-11ec-ba43-dac502259ad0.png

UR5 多物體視覺拾取和放置 拾取和放置任務(wù)在倉庫和物流環(huán)境中很常見,需要機械臂將物品從一個箱子運輸?shù)搅硪粋€箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎勵稀疏、需要從像素推斷對象位置以及多個移動對象的挑戰(zhàn)性動態(tài),該任務(wù)具有一定挑戰(zhàn)性。

ac4b85fe-f879-11ec-ba43-dac502259ad0.png

XArm 視覺拾取和放置 上面提到的 UR5 機器人是高性能工業(yè)機器人,但 XArm 是一種可訪問的低成本 7 DOF 操作,此處任務(wù)類似,需要定位和抓取一個柔軟的物體,將其從一個容器移到另一個容器并返回,如圖 6 所示。

ac68eefa-f879-11ec-ba43-dac502259ad0.png

Sphero 導(dǎo)航 此外,研究者還在視覺導(dǎo)航任務(wù)上評估了 Dreamer,該任務(wù)需要將輪式機器人操縱到固定目標(biāo)位置,僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機器人,一個帶有兩個可控電機的圓柱形機器人,研究者通過 2 Hz 的連續(xù)扭矩命令對其進行控制。鑒于機器人是對稱的,并且機器人只能獲得圖像觀察,它必須從觀察歷史中推斷出航向。

ac81211e-f879-11ec-ba43-dac502259ad0.png

2 小時內(nèi),Dreamer 學(xué)會了快速且始終如一地導(dǎo)航到目標(biāo),并保持在目標(biāo)附近。如圖 7 所示,Dreamer 與目標(biāo)的平均距離為 0.15(以區(qū)域大小為單位測量并跨時間步求平均值)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31079

    瀏覽量

    222273
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98065

原文標(biāo)題:1小時學(xué)會走路,10分鐘學(xué)會翻身,世界模型讓機器人迅速掌握多項技能

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智能機器人的“神經(jīng)網(wǎng)絡(luò)”:線圈驅(qū)動與感知中的核心作用

    機器人線圈 是機器人系統(tǒng)中實現(xiàn)電能轉(zhuǎn)換、運動驅(qū)動與信號感知的重要基礎(chǔ)元件,廣泛應(yīng)用于工業(yè)機器人、服務(wù)機器人、協(xié)作機器人及特種
    的頭像 發(fā)表于 02-05 19:09 ?112次閱讀

    NVIDIA Cosmos世界基礎(chǔ)模型如何塑造機器人未來

    在這一演進過程中,世界模型逐漸成為連接高層智能與底層執(zhí)行的關(guān)鍵基礎(chǔ)設(shè)施。通過對環(huán)境狀態(tài)及其時間演化進行建模,世界模型使機器人系統(tǒng)能夠
    的頭像 發(fā)表于 01-22 16:38 ?524次閱讀
    NVIDIA Cosmos<b class='flag-5'>世界</b>基礎(chǔ)<b class='flag-5'>模型</b>如何塑造<b class='flag-5'>機器人</b>未來

    大曉機器人發(fā)布開悟3.0,國產(chǎn)世界模型機器人擁有“超級大腦”

    機器人的使命就是讓每個機器人都擁有一個聰明的大腦,洞察萬物,學(xué)會與視覺精準(zhǔn)交互。 ? 在此背景下,大曉機器人憑借其原創(chuàng)的“世界模型”技術(shù)體系
    的頭像 發(fā)表于 12-25 09:25 ?2522次閱讀
    大曉<b class='flag-5'>機器人</b>發(fā)布開悟3.0,國產(chǎn)<b class='flag-5'>世界</b><b class='flag-5'>模型</b>讓<b class='flag-5'>機器人</b>擁有“超級大腦”

    探索RISC-V機器人領(lǐng)域的潛力

    利用Gazebo仿真環(huán)境(x86主機上運行)和MUSE Pi Pro的ROS 2節(jié)點進行了聯(lián)合仿真。 ? 場景: PC的Gazebo中運行一個TurtleBot3機器人
    發(fā)表于 12-03 14:40

    小蘿卜機器人的故事

    經(jīng)過我的申請, 馬老師發(fā)放了, 小蘿卜機器人的, 開發(fā)權(quán)限, 原來的小蘿卜公司, 因為經(jīng)營不善倒閉, 作為科研產(chǎn)品, 幾個技術(shù)對此惋惜, 自掏腰包, 要讓小蘿卜機器人, 再生, 每次聽到小蘿卜說
    發(fā)表于 10-23 05:24

    自制巡線解迷宮機器人

    為原理驗證機且為了提高項目整體的開發(fā)速度,機器人的所有元器件均采用TB的現(xiàn)有模塊,并使用洞洞板直接焊接的方式來構(gòu)建其機械結(jié)構(gòu)和電氣連接。 軟件層面上,該機器人內(nèi)部集成有經(jīng)典的PID
    發(fā)表于 10-20 10:39

    機器人競技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”

    幫助機器人實時修正重心,大幅降低翻倒風(fēng)險。 關(guān)節(jié)運動控制,磁傳感器芯片實現(xiàn) “毫米級精度保障”。以昆泰芯 KTM59 系列磁編碼器的離軸應(yīng)用為例,其非接觸式磁信號捕捉技術(shù),解決了傳統(tǒng)光學(xué)編碼器
    發(fā)表于 08-26 10:02

    英偉達發(fā)布機器人 “新大腦”,黃仁勛:人形機器人三年普及

    完成如 “烤面包” 這樣的復(fù)雜任務(wù)。結(jié)合 Omniverse 仿真平臺,訓(xùn)練效率提高了10倍,大大縮短了機器人學(xué)習(xí)和適應(yīng)現(xiàn)實環(huán)境的時間。 英偉達創(chuàng)始兼首席執(zhí)行官黃仁勛鏈博會上發(fā)表演講時指出,物理 AI 將推動 AI 從虛擬
    的頭像 發(fā)表于 08-25 18:34 ?438次閱讀

    億緯鋰亮相2025世界機器人博覽會

    8月8日至12日,億緯鋰機器人電池全面解決方案亮相北京2025世界機器人博覽會,集中展示了從電芯、BMS到Pack的機器人動力系統(tǒng)全鏈條
    的頭像 發(fā)表于 08-13 17:43 ?3713次閱讀

    工業(yè)機器人的特點

    是實現(xiàn)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ),也是第一步。 三大優(yōu)勢:提高產(chǎn)品品質(zhì)、提高產(chǎn)出、適用范圍廣 機器人在生產(chǎn)上的優(yōu)勢可以分為提高產(chǎn)品品質(zhì)、提高產(chǎn)出以及適用范圍廣三個方面。提高產(chǎn)品品質(zhì) 工業(yè)機器人的標(biāo)準(zhǔn)化、精細(xì)化
    發(fā)表于 07-26 11:22

    盤點#機器人開發(fā)平臺

    地瓜機器人RDK X5開發(fā)套件地瓜機器人RDK X5開發(fā)套件產(chǎn)品介紹 旭日5芯片10TOPs算力-電子發(fā)燒友網(wǎng)機器人開發(fā)套件 Kria KR260機器人開發(fā)套件 Kria KR260-
    發(fā)表于 05-13 15:02

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機器人視覺:從理論到實踐 第7章詳細(xì)介紹了ROS2機器視覺領(lǐng)域的應(yīng)用,涵蓋了相機標(biāo)定、OpenCV集成、視覺巡線、二維碼識別以及深度學(xué)習(xí)目標(biāo)檢測等內(nèi)容。通過學(xué)習(xí),我認(rèn)識到: 相機標(biāo)定的重要性
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    ROS的全稱:Robot Operating System 機器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫,是通信總線,協(xié)調(diào)多個傳感器 為了解決機器人里各廠商模塊不通用的問題,讓機器人快速開發(fā)
    發(fā)表于 04-30 01:05

    網(wǎng)線機器人領(lǐng)域如何發(fā)揮重要作用

    機器人制造領(lǐng)域正經(jīng)歷前所未有的變革,網(wǎng)絡(luò)產(chǎn)品作為連接機器人內(nèi)部系統(tǒng)與外部環(huán)境的關(guān)鍵紐帶,機器視覺、數(shù)據(jù)采集和遠程控制等環(huán)節(jié)發(fā)揮著決定性
    的頭像 發(fā)表于 04-27 13:33 ?863次閱讀

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品

    機器人場景的量產(chǎn)應(yīng)用。更多的面向智能機器人的RISC-V AI軟硬件技術(shù)創(chuàng)新以及應(yīng)用案例,將陸續(xù)公司微信公眾號做介紹,敬請大家期待。
    發(fā)表于 04-25 17:59