91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

牛津博士論文學習重建和分割3D物體,突破AI和機器理解的界限

工程師鄧生 ? 來源:機器之心Pro ? 作者:Bo Yang ? 2020-11-26 18:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

讓機器擁有像人類一樣感知 3D 物體和環(huán)境的能力,是人工智能領域的一項重要課題。牛津大學計算機科學系博士生 Bo Yang 在其畢業(yè)論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環(huán)境的能力,突破了人工智能和機器理解的界限。

賦予機器像人類一樣感知三維真實世界的能力,這是人工智能領域的一個根本且長期存在的主題??紤]到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點云,該領域研究中一個重要的目標是理解三維環(huán)境的幾何結構和語義。

傳統(tǒng)方法通常利用手工構建的特征來估計物體或場景的形狀和語義。但是,這些方法難以泛化至新物體和新場景,也很難克服視覺遮擋的關鍵問題。

今年九月畢業(yè)于牛津大學計算機科學系的博士生 Bo Yang 在其畢業(yè)論文《Learning to Reconstruct and Segment 3D Objects》中對這一主題展開了研究。與傳統(tǒng)方法不同,作者通過在大規(guī)模真實世界的三維數據上訓練的深度神經網絡來學習通用和魯棒表示,進而理解場景以及場景中的物體。

總體而言,本文開發(fā)了一系列新型數據驅動算法,以實現(xiàn)機器感知到真實世界三維環(huán)境的目的。作者表示:「本文可以說是突破了人工智能和機器理解的界限?!?/p>

這篇博士論文有 143 頁,共六章。機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀論文原文。

論文地址:https://arxiv.org/pdf/2010.09582.pdf

論文概述

作者在第 2 章首先回顧了以往 3D 物體重建和分割方面的研究工作,包括單視圖和多視圖 3D 物體重建、3D 點云分割、對抗生成網絡(GAN)、注意力機制以及集合上的深度學習。此外,本章最后還介紹了在單視圖 / 多視圖 3D 重建和 3D 點云分割方面,該研究相較于 SOTA 方法的新穎之處。

基于單視圖的 3D 物體重建

在第 3 章,作者提出以一種基于 GAN 的深度神經架構來從單一的深度視圖學習物體的密集 3D 形狀。作者將這種簡單但有效的模型稱為 3D-RecGAN++,它將殘差連接(skip-connected)的 3D 編碼器 - 解碼器和對抗學習結合,以生成單一 2.5D 視圖條件下的完整細粒度 3D 結構。該模型網絡架構的訓練和測試流程如下圖所示:

接著,作者利用條件對抗訓練來細化編碼器 - 解碼器估計的 3D 形狀,其中用于 3D 形狀細化的判別器結構示意圖如下:

最后,作者將提出的 3D-RecGAN++ 與 SOTA 方法做了對比,并進行了控制變量研究。在合成和真實數據集上的大量實驗結果表明,該模型性能良好。

基于多視圖的 3D 物體重建

在第 4 章,作者提出以一種新的基于注意力機制的神經模塊來從多視圖中推理出更好的 3D 物體形狀。這種簡單但高效的注意力聚合模塊被稱為 AttSets,其結構如下圖所示。與現(xiàn)有方法相比,這種方法可以學習從不同圖像中聚合有用信息。

此外,研究者還引入了兩階段訓練算法,以確保在給出一定數量輸入圖像的情況下,預估的 3D 形狀具有魯棒性。研究者在多個數據集上進行了實驗,證明該方法能夠精確地恢復物體的 3D 形狀。

從點云中學習分割 3D 物體

在第五章中,研究者提出了一個新的框架來識別大規(guī)模 3D 場景中的所有單個 3D 物體。與現(xiàn)有的研究相比,該研究的框架能夠直接并且同時進行檢測、分割和識別所有的目標實例,而無需任何繁瑣的前 / 后處理步驟。研究者在多個大型實際數據集上展現(xiàn)了該方法相對于基線的性能提升。

作者介紹

本文作者 Bo Yang 現(xiàn)為香港理工大學計算機系助理教授。他本科和碩士分別畢業(yè)于北京郵電大學和香港大學,然后進入牛津大學計算機科學系攻讀博士學位,其導師為 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作為一作以及合著的論文曾被《計算機視覺國際期刊》(IJCV)以及 NeurIPS 和 CVPR 等學術會議接收,谷歌學術主頁上顯示他共著有 22 篇論文,被引用數超過 400。

論文目錄如下:

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301454
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136962
  • 3D物體識別
    +關注

    關注

    0

    文章

    3

    瀏覽量

    6416
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人形機器3D 視覺路線之爭:激光雷達、雙目和 3D - ToF 誰更勝一籌?

    電子發(fā)燒友網報道(文 / 吳子鵬)在人形機器人的設計方案中,3D 視覺技術是實現(xiàn)環(huán)境感知與智能化決策的核心支撐之一。它能夠助力人形機器人完成環(huán)境感知與建模、動態(tài)目標檢測與跟蹤、物體操作
    的頭像 發(fā)表于 04-15 00:14 ?4097次閱讀

    物理AI之眼:當3D視覺與激光雷達成為硅基智能世界的“智瞳”

    清晨,你的家庭服務機器人正流暢地沖煮咖啡,它透過“雙眼”精準識別吧臺上的杯具和調料瓶,這一系列動作背后,是一次由3D感知與物理AI(PhysicalAI)驅動的智能協(xié)同。近期,美國拉斯維加斯
    的頭像 發(fā)表于 01-09 16:03 ?1680次閱讀
    物理<b class='flag-5'>AI</b>之眼:當<b class='flag-5'>3D</b>視覺與激光雷達成為硅基智能世界的“智瞳”

    簡單認識3D SOI集成電路技術

    在半導體技術邁向“后摩爾時代”的進程中,3D集成電路(3D IC)憑借垂直堆疊架構突破平面縮放限制,成為提升性能與功能密度的核心路徑。
    的頭像 發(fā)表于 12-26 15:22 ?595次閱讀
    簡單認識<b class='flag-5'>3D</b> SOI集成電路技術

    DIPO框架實現(xiàn)應用于具身智能仿真的3D鉸鏈物體生成新范式

    在具身智能從理解環(huán)境向與環(huán)境交互進化的當下,構建真實且可交互的仿真環(huán)境是重要路徑。單一剛體生成已難滿足需求,機器人需要面對的是柜門、抽屜、微波爐等大量具有物理約束的鉸鏈物體。受限于復雜的運動學結構,高質量
    的頭像 發(fā)表于 12-03 09:18 ?403次閱讀
    DIPO框架實現(xiàn)應用于具身智能仿真的<b class='flag-5'>3D</b>鉸鏈<b class='flag-5'>物體</b>生成新范式

    僅使用智能手機在NVIDIA Isaac Sim中重建場景

    使用 iPhone 拍攝照片,到利用 3DGUT 進行 3D 場景重建,再到將重建的場景導入 NVIDIA Isaac Sim 并添加機器
    的頭像 發(fā)表于 11-10 14:03 ?852次閱讀

    突破傳統(tǒng)!AI3D相機與邊緣計算打造智能運動系統(tǒng)

    ,一個新的維度變得至關重要:智能。要實現(xiàn)真正智能的運動系統(tǒng),必須融合三項關鍵技術:人工智能(AI)、3D相機和邊緣計算。三者結合,使機器不僅能精準移動,還能實時感知
    的頭像 發(fā)表于 10-31 17:02 ?569次閱讀
    <b class='flag-5'>突破</b>傳統(tǒng)!<b class='flag-5'>AI</b>、<b class='flag-5'>3D</b>相機與邊緣計算打造智能運動系統(tǒng)

    京東11.11直播技術全面升級,立影3D技術、JoyAI大模型重構沉浸式購物體

    隨著京東 11.11 大促的火熱進行,京東直播再度升級技術布局,以 “立影 3D 技術”“JoyAI大模型”等創(chuàng)新技術,打破傳統(tǒng)直播邊界,為用戶帶來更具沉浸感、趣味性的購物體驗,引領直播電商技術創(chuàng)新
    的頭像 發(fā)表于 10-27 14:58 ?628次閱讀

    奧比中光3D視覺技術賦能IROS 2025研究成果

    全球機器人領域最具影響力的學術會議IROS 2025于10月19日至25日在杭州國際博覽中心舉行。大會收錄的多篇論文的研究成果采用了奧比中光的3D視覺技術,涵蓋自動化掃描、空間建模、人機交互等前沿方向,彰顯了奧比中光在全球
    的頭像 發(fā)表于 10-23 16:29 ?789次閱讀

    奧比中光領跑韓國機器3D視覺市場

    近日,國際權威行業(yè)研究機構Interact Analysis發(fā)布《韓國商用及工業(yè)移動機器3D視覺市場分析》報告(以下簡稱“報告”)。數據顯示,奧比中光在韓國商用和工業(yè)移動機器3D
    的頭像 發(fā)表于 10-23 16:27 ?728次閱讀

    玩轉 KiCad 3D模型的使用

    “ ?本文將帶您學習如何將 3D 模型與封裝關聯(lián)、文件嵌入,講解 3D 查看器中的光線追蹤,以及如何使用 CLI 生成 PCBA 的 3D 模型。? ” ? 在日常的 PCB 設計中,
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技術,多樣化的3D視覺應用

    。 ◆ 應用2—機艙內的 3D 傳感 應用3—自主移動機器人 (AMR) 在室外(~150,000 勒克斯)和黑暗環(huán)境中進行障礙物檢測。 高分辨率能力,可準確檢測細長物體,例如椅
    發(fā)表于 09-05 07:24

    索尼與VAST達成3D業(yè)務合作

    近日,索尼空間現(xiàn)實顯示屏與VAST旗下的3D大模型Tripo AI正式宣布達成業(yè)務合作:雙方將圍繞裸眼3D顯示技術、AI驅動的3D內容生成與
    的頭像 發(fā)表于 08-28 17:32 ?1436次閱讀

    普渡科技推出3D感知AI掃地機器人PUDU MT1 Max

    在持續(xù)探索機器人技術與真實場景深度融合的進程中,普渡機器人以場景驅動創(chuàng)新,正式推出PUDU MT1 Max 3D感知AI掃地機器人。它在MT
    的頭像 發(fā)表于 08-25 15:47 ?1260次閱讀

    基于NVIDIA AI3D機器人感知與地圖構建系統(tǒng)設計

    機器人必須感知和理解3D 環(huán)境,才能安全高效地行動。這一點在非結構化或陌生空間中的自主導航、對象操作和遠程操作等任務尤為重要。當前機器人感知技術的進展,越來越多地體現(xiàn)在通過統(tǒng)一的實
    的頭像 發(fā)表于 07-04 14:31 ?1152次閱讀
    基于NVIDIA <b class='flag-5'>AI</b>的<b class='flag-5'>3D</b><b class='flag-5'>機器</b>人感知與地圖構建系統(tǒng)設計

    NVIDIA助力影眸科技3D生成工具Rodin升級

    AI、計算機視覺技術在大眾娛樂市場的推廣應用,其 3D 生成工具 Rodin(Hyper3d.ai)去年 6 月發(fā)布后迅速突破了百萬用戶量級,背后技術
    的頭像 發(fā)表于 04-27 15:09 ?1299次閱讀