日韩在线不卡一区,一级做a爱免费观看视频

谷歌在其AI博客上介紹了一款基于AI和深度學(xué)習(xí)的圖像標(biāo)注方式“流體標(biāo)注”，可作為人工標(biāo)注者的有力輔助工具，將標(biāo)記數(shù)據(jù)集的生成速度提升至現(xiàn)在的3倍，有望緩解目前機(jī)器學(xué)習(xí)研究中，高質(zhì)量的訓(xùn)練數(shù)據(jù)獲取難的瓶頸。

基于深度學(xué)習(xí)的現(xiàn)代計(jì)算機(jī)視覺(jué)模型（比如由TensorFlow對(duì)象檢測(cè)API實(shí)現(xiàn)的模型）的性能取決于是否可以使用規(guī)模越來(lái)越大的標(biāo)記訓(xùn)練數(shù)據(jù)集（如公開(kāi)的圖像）進(jìn)行訓(xùn)練。

然而，如何獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)，正迅速成為計(jì)算機(jī)視覺(jué)領(lǐng)域的主要瓶頸。這對(duì)于自動(dòng)駕駛、機(jī)器人和圖像搜索等應(yīng)用中使用的語(yǔ)義分段的像素預(yù)測(cè)任務(wù)而言尤其如此。

實(shí)際上，傳統(tǒng)的手動(dòng)數(shù)據(jù)標(biāo)記工具，需要標(biāo)記者仔細(xì)點(diǎn)擊圖象邊界，來(lái)劃定圖像中的每個(gè)對(duì)象，這很乏味：在COCO + Stuff數(shù)據(jù)集中，標(biāo)記一個(gè)圖像需要19分鐘，而標(biāo)記整個(gè)數(shù)據(jù)集需要53000小時(shí)！

COCO數(shù)據(jù)集中的圖像示例（左）及其逐像素語(yǔ)義標(biāo)記（右）。圖片來(lái)源：Florida Memory

本文中的內(nèi)容將在2018年ACM多媒體會(huì)議“勇敢新理念”環(huán)節(jié)中展示，谷歌的研究人員研究了一種機(jī)器學(xué)習(xí)驅(qū)動(dòng)的界面，可用于標(biāo)注分類數(shù)據(jù)，劃定圖像中每個(gè)目標(biāo)的輪廓和背景，讓標(biāo)記數(shù)據(jù)集的生成速度提高至原來(lái)的3倍。

該工具名為流體標(biāo)注（Fluid Annotation），從強(qiáng)語(yǔ)義分割模型的輸出開(kāi)始，人工標(biāo)記者可以使用自然用戶界面，通過(guò)機(jī)器輔助編輯操作進(jìn)行修改。谷歌此次開(kāi)發(fā)的界面可以讓標(biāo)記者選擇要修改的內(nèi)容和順序，使他們能夠高效地將精力集中在機(jī)器尚不了解的內(nèi)容上。

對(duì)COCO數(shù)據(jù)集中圖像使用流體標(biāo)注界面的可視化。圖片來(lái)源：gamene

更確切地說(shuō)，為了對(duì)圖像進(jìn)行標(biāo)記，我們首先通過(guò)預(yù)訓(xùn)練的語(yǔ)義分割模型（Mask-RCNN）來(lái)處理圖像。這會(huì)生成約1000個(gè)圖像片段及其分類標(biāo)簽和置信度分?jǐn)?shù)。置信度分?jǐn)?shù)最高的片段用于對(duì)標(biāo)簽的初始化，呈現(xiàn)給標(biāo)記者。

然后，標(biāo)記者就可以：（1）從機(jī)器生成的候選標(biāo)簽中為當(dāng)前片段選擇標(biāo)簽。（2）對(duì)機(jī)器未覆蓋到的對(duì)象添加分割段。機(jī)器會(huì)識(shí)別出最可能的預(yù)生成段，標(biāo)記者可以從中選擇質(zhì)量最高的一個(gè)。（3）刪除現(xiàn)有段。（4）改變重疊段的深度順序。（Demo鏈接在此：https://fluidann.appspot.com/，僅限桌面平臺(tái)）

使用傳統(tǒng)手動(dòng)標(biāo)記（中列）和流體標(biāo)注（右）在COCO數(shù)據(jù)集的三張圖像上進(jìn)行標(biāo)記的比較。雖然使用手動(dòng)標(biāo)記工具時(shí)，目標(biāo)的邊界一般更準(zhǔn)確，但標(biāo)記差異的最大原因是人類標(biāo)記者通常對(duì)某一確切的對(duì)象分類有不同意見(jiàn)。來(lái)源：sneaka（上），Dan Hurt（中），Melodie Mesiano（下）。

流體標(biāo)注是讓圖像標(biāo)注變得更快、更容易的第一步探索。未來(lái)的目標(biāo)是改進(jìn)對(duì)目標(biāo)邊界的標(biāo)記，進(jìn)一步利用機(jī)器智能提升界面的速度，最終實(shí)現(xiàn)對(duì)界面的擴(kuò)展，能夠處理以前無(wú)法識(shí)別的分類，實(shí)現(xiàn)最高效、需求最大的數(shù)據(jù)收集。

而實(shí)際上，關(guān)于這款工具的論文的預(yù)印本早在近一個(gè)月前就發(fā)在了arxiv上。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴