欧美一级a黄片在线直播,成人AV在线亚洲,久久久精品不卡卡

要讓人形機(jī)器人真正有用，它們需要具備認(rèn)知能力和移動(dòng)操作能力，涵蓋感知、規(guī)劃以及在動(dòng)態(tài)環(huán)境中的全身控制。

構(gòu)建通用機(jī)器人需要一個(gè)統(tǒng)一的仿真、控制與學(xué)習(xí)工作流——讓機(jī)器人能夠在安全的環(huán)境中獲取復(fù)雜技能，然后再遷移到真實(shí)世界中。

在本文中，我們將介紹NVIDIA Isaac GR00T N1.6以及一套從仿真到現(xiàn)實(shí)的工作流，該工作流結(jié)合了在NVIDIA Isaac Lab中進(jìn)行的全身強(qiáng)化學(xué)習(xí)（RL）、通過 COMPASS 利用合成數(shù)據(jù)訓(xùn)練的導(dǎo)航，以及使用 NVIDIA CUDA 加速的視覺映射與 SLAM 實(shí)現(xiàn)基于視覺的定位。

這些組件使機(jī)器人能夠?qū)崿F(xiàn)移動(dòng)操作、穩(wěn)健的導(dǎo)航以及環(huán)境感知行為，適用于多種機(jī)器人形態(tài)。

視覺–語言–動(dòng)作模型與推理

GR00T N1.6 是一個(gè)多模態(tài)視覺-語言-動(dòng)作（VLA）模型，能夠?qū)C(jī)器人自視角攝像頭流、機(jī)器人狀態(tài)以及自然語言指令整合為統(tǒng)一的策略表示。該模型使用NVIDIA Cosmos Reason等世界模型，將高級指令分解為基于場景理解的逐步動(dòng)作計(jì)劃，從而執(zhí)行真實(shí)世界任務(wù)。這種架構(gòu)允許 GR00T 執(zhí)行移動(dòng)和靈巧操作，通過端到端學(xué)習(xí)的表示完成控制。

GR00T N1.6 在上一版本基礎(chǔ)上進(jìn)行了多項(xiàng)增強(qiáng)，進(jìn)一步提升能力和現(xiàn)實(shí)世界適用性：

增強(qiáng)推理與感知：使用 Cosmos-Reason-2B VLM 變體，支持原生分辨率，使機(jī)器人“看得更清楚”，并能更好地理解環(huán)境并轉(zhuǎn)化為更可靠的場景理解和任務(wù)分解能力。

流暢、自適應(yīng)的動(dòng)作：提升至 2 倍的 Diffusion Transformer（32 層）以及狀態(tài)相關(guān)動(dòng)作預(yù)測，使動(dòng)作更平滑、抖動(dòng)更少，并能適應(yīng)位置變化。

優(yōu)化的跨形態(tài)性能：在數(shù)千小時(shí)多樣化遙操作數(shù)據(jù)（人形機(jī)器人、移動(dòng)機(jī)械臂、雙手機(jī)械臂）上訓(xùn)練，使模型在多種機(jī)器人形態(tài)上泛化能力更強(qiáng)。

GR00T N1.6 配備了預(yù)訓(xùn)練權(quán)重，可支持零樣本評估與驗(yàn)證基本操作原語，但如果要針對特定機(jī)器人形態(tài)或任務(wù)部署 GR00T N1.6，仍建議對模型進(jìn)行微調(diào)以滿足具體需求。

CoRL 2025展示了 GR00T N1.6 在 G1 人形機(jī)器人上執(zhí)行移動(dòng)操作任務(wù)的效果。

全身RL訓(xùn)練與仿真到現(xiàn)實(shí)的遷移

RL 訓(xùn)練在仿真中為 GR00T N1.6 提供了可使用的底層運(yùn)動(dòng)智能，并通過高層 VLA 策略進(jìn)行協(xié)調(diào)。在 Isaac Lab 中通過 RL 訓(xùn)練的全身控制器生成與人類似、動(dòng)態(tài)穩(wěn)定的運(yùn)動(dòng)原語，涵蓋行走、操作以及接觸密集型協(xié)調(diào)行為。

這些策略在 Isaac Lab 和 Isaac Sim 中進(jìn)行大規(guī)模訓(xùn)練和壓力測試，然后零樣本遷移到真實(shí)機(jī)器人上，最大限度減少針對特定任務(wù)的微調(diào)，同時(shí)在各種環(huán)境和機(jī)器人形態(tài)中保持穩(wěn)健性。仿真到現(xiàn)實(shí)的流程允許 GR00T 的高層 VLA 專注于任務(wù)順序和場景感知決策，而無需操心底層運(yùn)動(dòng)的穩(wěn)定性。

GR00T-WholeBodyControl作為全身控制器，為 GR00T N1.6 提供底層的移動(dòng)操作層。使用該控制器即可形成完整棧：高層指令跟隨、中層行為組合、底層穩(wěn)健控制，所有環(huán)節(jié)在仿真中驗(yàn)證后再部署到硬件。

基于合成數(shù)據(jù)訓(xùn)練的導(dǎo)航

為了在全身控制基礎(chǔ)上實(shí)現(xiàn)目標(biāo)導(dǎo)向的導(dǎo)航，GR00T N1.6 通過 COMPASS 在 Isaac Lab 生成的大規(guī)模合成數(shù)據(jù)集上微調(diào)，實(shí)現(xiàn)點(diǎn)到點(diǎn)導(dǎo)航。在此流程中，COMPASS擔(dān)任導(dǎo)航專家，生成覆蓋不同場景和機(jī)器人形態(tài)的多樣軌跡，用于將 GR00T 從 VLA 模型轉(zhuǎn)化為強(qiáng)大的導(dǎo)航策略。

導(dǎo)航策略在仿真中訓(xùn)練，并通過簡單速度命令控制全身控制器，而不是直接產(chǎn)生關(guān)節(jié)力矩。這樣，底層全身 RL 策略負(fù)責(zé)保持平衡與接觸處理，而導(dǎo)航頭專注于避障、路徑跟隨和導(dǎo)航-操作銜接。實(shí)驗(yàn)表明，這種純仿真訓(xùn)練流程實(shí)現(xiàn)了零樣本仿真到顯示的遷移，可在全新的物理環(huán)境中零樣本部署，無需額外針對特定任務(wù)采集數(shù)據(jù)。

COMPASS是一個(gè)開發(fā)跨形態(tài)移動(dòng)策略的全新工作流，結(jié)合模仿學(xué)習(xí)、殘差 RL 和策略蒸餾，已在 Isaac Lab 中驗(yàn)證了 RL 微調(diào)和零樣本仿真到現(xiàn)實(shí)的有效性。

基于此，GR00T N1.6PointNav示例發(fā)布了逐步指南和代碼，幫助開發(fā)者微調(diào)和評估使用COMPASS生成數(shù)據(jù)的導(dǎo)航策略，從而復(fù)現(xiàn)并將導(dǎo)航棧擴(kuò)展到不同機(jī)器人形態(tài)和場景。

基于視覺的定位

基于視覺的定位使 GR00T N1.6 能夠在大型真實(shí)世界環(huán)境中使用全身控制器和導(dǎo)航策略。在全身 RL 賦予機(jī)器人穩(wěn)健的移動(dòng)操作技能、并通過 COMPASS 合成數(shù)據(jù)微調(diào)點(diǎn)到點(diǎn)導(dǎo)航后，系統(tǒng)仍需準(zhǔn)確估計(jì)機(jī)器人的位置，使命令和路徑點(diǎn)與真實(shí)坐標(biāo)對應(yīng)。

為此，視覺映射與定位棧利用搭載在邊緣端的攝像頭和預(yù)構(gòu)建地圖保持低漂移位姿估計(jì)，使機(jī)器人命令能精確對應(yīng)機(jī)器人和物體坐標(biāo)。

視覺映射與定位棧基于NVIDIA Isaac 和NVIDIA CUDA-X 庫并采用以下立體深度模型構(gòu)建：

cuVSLAM：實(shí)時(shí)視覺-慣性 SLAM 與里程計(jì)庫。里程計(jì)提供平滑速度估計(jì)，SLAM 后端生成低漂移位姿并支持閉環(huán)校正。

cuVGL：視覺全局定位庫，在預(yù)構(gòu)建地圖中計(jì)算初始位姿，用于啟動(dòng) cuVSLAM。

FoundationStereo：立體深度基礎(chǔ)模型，在不同環(huán)境中實(shí)現(xiàn)強(qiáng)零樣本泛化。

nvblox：高效 3D 感知庫，重建環(huán)境并生成 2D occupancy 圖，用于路徑規(guī)劃。

我們收集環(huán)境立體圖像并預(yù)構(gòu)建地圖，包括 cuVSLAM landmark 圖、cuVGL bag-of-words 圖以及 occupancy 圖。occupancy 圖中標(biāo)注廚房桌等語義位置，用于任務(wù)規(guī)劃。

運(yùn)行時(shí)，cuVGL 從預(yù)構(gòu)建地圖檢索視覺相似圖像對，并根據(jù)立體圖像對估計(jì)初始位姿。將該位姿作為先驗(yàn)，cuVSLAM 匹配局部地標(biāo)進(jìn)行定位。定位成功后，cuVSLAM 持續(xù)跟蹤特征并執(zhí)行地圖優(yōu)化，保持導(dǎo)航中機(jī)器人位姿準(zhǔn)確。

我們在 Isaac ROS 中開發(fā)了離線地圖創(chuàng)建工作流，從 ROS bag 構(gòu)建地圖，并提供isaac_ros_visual_slam與isaac_ros_visual_global_localization包實(shí)現(xiàn)定位。使用立體攝像頭驅(qū)動(dòng)、圖像校正節(jié)點(diǎn)、occupancy 圖服務(wù)器、cuVSLAM 與 cuVGL 節(jié)點(diǎn)，即可在 ROS2 中創(chuàng)建完整定位流程。

開始開發(fā)

從 HuggingFace 下載并試用Isaac GR00T N1.6 開放模型。

使用 Isaac Lab 和 Newton 進(jìn)行 RL 與策略訓(xùn)練，并在Isaac Lab中使用COMPASS生成導(dǎo)航合成數(shù)據(jù)。

使用 Isaac ROS 中發(fā)布的 CUDA-X 視覺映射與定位庫：

從校正立體圖像生成視覺與 occupancy 圖。

啟動(dòng) cuVSLAM 與 cuVGL 使用生成地圖實(shí)現(xiàn)對機(jī)器人的定位。

訂閱我們的新聞通訊，并在LinkedIn、Instagram、X和Facebook上關(guān)注NVIDIA Robotics，以獲取最新動(dòng)態(tài)。您還可以查閱NVIDIA文檔與YouTube頻道，或加入NVIDIA開發(fā)者機(jī)器人論壇。若想開啟機(jī)器人開發(fā)之旅，歡迎立即報(bào)名參加我們免費(fèi)的NVIDIA機(jī)器人基礎(chǔ)課程。

關(guān)于作者

Edith Llontop 是 NVIDIA 的機(jī)器人解決方案架構(gòu)師。她擁有加州大學(xué)伯克利分校的電氣工程和計(jì)算機(jī)科學(xué)學(xué)位，并在伯克利人工智能研究實(shí)驗(yàn)室擁有機(jī)器人研究經(jīng)驗(yàn)。她現(xiàn)在致力于使用 NVIDIA 機(jī)器人平臺 Isaac 為客戶提供支持。

Yan Chang 是 NVIDIA 的首席工程師兼高級工程經(jīng)理。她目前領(lǐng)導(dǎo)機(jī)器人移動(dòng)團(tuán)隊(duì)。在加入 NVIDIA 之前，她曾領(lǐng)導(dǎo) Zoox (亞馬遜開發(fā)自動(dòng)駕駛汽車的子公司) 的行為基礎(chǔ)模型團(tuán)隊(duì)。她擁有密歇根大學(xué)的博士學(xué)位。

Yuchen Deng 是 NVIDIA 的軟件工程師，從事 GPU 加速感知和自主系統(tǒng)的研究。她擁有卡內(nèi)基梅隆大學(xué)電氣和計(jì)算機(jī)工程碩士學(xué)位，熱衷于構(gòu)建更智能、更強(qiáng)大的機(jī)器人。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴