想象一下,如果我們必須向外星人解釋地球上發(fā)生的所有行為。我們可以為他們提供非小說(shuō)類書籍或BBC紀(jì)錄片。我們可以嘗試口頭解釋什么是電臀舞。但是,實(shí)際上,沒(méi)有什么能比三秒鐘的視頻短片更好地傳達(dá)出這一行為的含義。
Falling Asleep(入睡,來(lái)自GIPHY網(wǎng)站)
感謝麻省理工學(xué)院和IBM的研究人員,我們現(xiàn)在有了一個(gè)做了清晰的標(biāo)簽標(biāo)記的數(shù)據(jù)集,其中包含有100多萬(wàn)個(gè)視頻短片。這個(gè)數(shù)據(jù)集名為“Moments in Time”,已經(jīng)收集了地球上發(fā)生的數(shù)百種常見(jiàn)行為,有鮮花綻放的美麗時(shí)刻,也有令人尷尬的被絆倒和嘴啃泥場(chǎng)景。
Tripping(絆倒,來(lái)自GIPHY網(wǎng)站)
然而,Moments in Time的創(chuàng)建并不是為了提供一系列GIF動(dòng)畫,而是為人工智能系統(tǒng)識(shí)別和理解視頻中的行為和事件打下基礎(chǔ)。迄今為止,大量標(biāo)記過(guò)的圖像數(shù)據(jù)集,如用于物體識(shí)別的ImageNet和用于場(chǎng)景識(shí)別的Places,在開發(fā)更準(zhǔn)確的圖像分類和理解模型中發(fā)揮了重要作用。
“視頻理解尤其是視頻中的行為識(shí)別,與圖像理解的情況是不同的?!盡IT-IBM沃森人工智能實(shí)驗(yàn)室的首席研究員、創(chuàng)建Moments in Time的主管研究員Dan Gutfreund說(shuō)?!半m然用標(biāo)簽標(biāo)記了行為的視頻數(shù)據(jù)集在Moments in Time之前就已經(jīng)存在,但它們比圖像數(shù)據(jù)集要小好幾個(gè)數(shù)量級(jí)。此外,它們是以人為中心的,有時(shí)還是針對(duì)特定領(lǐng)域的(比如體育)?!?/p>
因此,Gutfreund及其同事們力圖開發(fā)一個(gè)分類系統(tǒng),該系統(tǒng)可以涵蓋最常見(jiàn)的行為(不管這些行為是由人類、動(dòng)物還是物體完成的,也不管它們是在什么環(huán)境下完成的)。他們首先列出了來(lái)自VerbNet的4500個(gè)最常用的動(dòng)詞(VerbNet是由語(yǔ)言學(xué)家開發(fā)和使用的一個(gè)動(dòng)詞知識(shí)庫(kù))。
他們將動(dòng)詞解析成語(yǔ)義相關(guān)的詞簇,然后從每個(gè)詞簇中選擇最常見(jiàn)的動(dòng)詞。結(jié)果顯示英語(yǔ)是很冗余的一種語(yǔ)言。例如,洗浴、淋浴、沐浴、皂洗、洗發(fā)、修指甲、保濕和用牙線——這些都可以簡(jiǎn)單地歸入“梳洗打扮”的范疇。在對(duì)動(dòng)詞進(jìn)行了細(xì)致的整合之后,研究團(tuán)隊(duì)確定了339個(gè)用做Moments in Time基礎(chǔ)的關(guān)鍵動(dòng)詞。
Grooming(梳洗打扮,來(lái)自GIPHY網(wǎng)站)
但是,當(dāng)對(duì)視頻本身進(jìn)行分類時(shí),會(huì)遇到一系列獨(dú)特的挑戰(zhàn)。例如,描述某個(gè)東西正在“打開”(opening),那可能是一個(gè)人正在打開一扇門,也可能是一朵花正在綻放,甚至可能是一只卡通狗正在張開嘴。更重要的是,相同幀反向播放,實(shí)際上可以描述不同的行為(“關(guān)閉”,closing),這意味著捕捉視頻的時(shí)間線對(duì)于理解視頻和將其正確分類是至關(guān)重要的。
Opening(打開,來(lái)自GIPHY網(wǎng)站)
研究人員從網(wǎng)上挑選了與這339個(gè)動(dòng)詞相關(guān)的視頻,將每個(gè)視頻的時(shí)長(zhǎng)縮短到3秒。這些視頻短片被發(fā)送到眾包平臺(tái)Amazon Mechanical Turk上,該平臺(tái)上的用戶幫助對(duì)100多萬(wàn)個(gè)視頻短片進(jìn)行分類(他們只需點(diǎn)擊“是”或“否”來(lái)確認(rèn)每個(gè)視頻短片中是否發(fā)生了指定的行為即可)。
每個(gè)標(biāo)簽都經(jīng)過(guò)幾個(gè)用戶的驗(yàn)證。關(guān)于該數(shù)據(jù)集如何創(chuàng)建的詳細(xì)信息,發(fā)表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章標(biāo)題為“Moments in Time Dataset: one million videos for event understanding”。
麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的Mathew Monfort是該項(xiàng)目的首席研究員,他指出,一些分類,比如“Walking”(步行)或“Cooking”(烹飪),是很簡(jiǎn)單的,而另一些則不然。“Playing Music”(演奏/播放音樂(lè))可以是一個(gè)樂(lè)隊(duì)在舞臺(tái)上演奏,也可以是一個(gè)人在用收音機(jī)聽音樂(lè)。Monfort說(shuō):“具有這種視覺(jué)和聽覺(jué)多義性的類目的識(shí)別,對(duì)于當(dāng)前的機(jī)器學(xué)習(xí)模型來(lái)說(shuō)是非常具有挑戰(zhàn)性的?!?/p>
Playing Music(演奏/播放音樂(lè),來(lái)自GIPHY網(wǎng)站)
在該數(shù)據(jù)集的下一版本中,該團(tuán)隊(duì)計(jì)劃使用相同的視頻集合,并標(biāo)記出每個(gè)視頻中發(fā)生的多個(gè)行為?!爱?dāng)我們考慮視頻的本質(zhì)時(shí),很明顯需要更多的信息來(lái)恰當(dāng)?shù)孛枋鲆粋€(gè)事件,而用一個(gè)行為標(biāo)簽來(lái)訓(xùn)練和評(píng)估模型是不完整的?!盡onfort說(shuō)?!皩⒍鄠€(gè)標(biāo)簽納入數(shù)據(jù)集應(yīng)該可以顯著改善模型訓(xùn)練,同時(shí)也為不同行為之間的關(guān)系問(wèn)題以及如何對(duì)它們進(jìn)行推理打開了大門?!?/p>
很快,更復(fù)雜的視頻可以通過(guò)機(jī)器學(xué)習(xí)算法分類,輕松自如。
不久之后,機(jī)器學(xué)習(xí)算法可能可以毫不費(fèi)力地對(duì)更復(fù)雜的視頻加以分類。
機(jī)器學(xué)習(xí)(Machine Learning,來(lái)自GIPHY網(wǎng)站)

-
人工智能
+關(guān)注
關(guān)注
1819文章
50178瀏覽量
266235 -
圖像分類
+關(guān)注
關(guān)注
0文章
97瀏覽量
12518 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1238瀏覽量
26239
原文標(biāo)題:100多萬(wàn)個(gè)視頻短片數(shù)據(jù)集來(lái)啦!
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Pico示波器如何實(shí)現(xiàn)多通道同步采集
商湯Seko助力2026年度AI短片計(jì)劃全球啟動(dòng)
全球首個(gè)最大規(guī)??绫倔w視觸覺(jué)多模態(tài)數(shù)據(jù)集白虎-VTouch發(fā)布
NVIDIA推出多語(yǔ)種語(yǔ)音AI開放數(shù)據(jù)集與模型
AI Cube如何導(dǎo)入數(shù)據(jù)集?
吉時(shí)利KEITHLEY DMM7510數(shù)字萬(wàn)用表吉時(shí)利DMM7510七位半萬(wàn)用表
云訓(xùn)練平臺(tái)數(shù)據(jù)集過(guò)大無(wú)法下載數(shù)據(jù)集至本地怎么解決?
張飛FOC磁場(chǎng)定向控制有感、無(wú)感電機(jī)驅(qū)動(dòng)視頻課程及STM32開發(fā)套件(共257集)
使用AICube導(dǎo)入數(shù)據(jù)集點(diǎn)創(chuàng)建后提示數(shù)據(jù)集不合法怎么處理?
數(shù)據(jù)集下載失敗的原因?
Analog Devices Inc. ADTF3175 100萬(wàn)像素飛行時(shí)間模塊數(shù)據(jù)手冊(cè)
100多萬(wàn)個(gè)視頻短片數(shù)據(jù)集來(lái)啦!
評(píng)論