91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-3引發(fā)公眾的遐想 能根據(jù)文字產(chǎn)生圖片的AI!

hl5C_deeptechch ? 來(lái)源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-10-09 18:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。

雖然它可以?xún)H憑很少的文本來(lái)輸出詩(shī)歌、短篇小說(shuō)和歌曲,并且成功地讓人們相信這是人類(lèi)的創(chuàng)作。但是,它在同人類(lèi)對(duì)話時(shí)還是顯得非?!坝字伞???杀M管如此,技術(shù)人員依然認(rèn)為,創(chuàng)造了 GPT-3 的技術(shù)可能是通往更高級(jí) AI 的必經(jīng)之路。

GPT-3 使用大量文本數(shù)據(jù)進(jìn)行了訓(xùn)練,那么,假如同時(shí)使用文本和圖像數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)發(fā)生什么呢?

艾倫人工智能研究所(AI2)在這個(gè)問(wèn)題上取得了進(jìn)展,技術(shù)人員開(kāi)發(fā)了一種新的視覺(jué)語(yǔ)言模型,可以根據(jù)給定的文本生成對(duì)應(yīng)圖像。

不同于 GAN 所生成的超現(xiàn)實(shí)主義作品,AI2 生成的這些圖像看起來(lái)非常怪異,但它的確可能是一個(gè)實(shí)現(xiàn)通用人工智能的新路徑。

AI“做題家”

GPT-3 在分類(lèi)上屬于 “Transformer” 模型,隨著 Google BERT 的成功,該模型開(kāi)始流行。而在 BERT 之前,語(yǔ)言模型可用性不佳。

它們雖然具備一定的預(yù)測(cè)能力,但并不足以生成符合語(yǔ)法和常識(shí)的長(zhǎng)句子。BERT 通過(guò)引入一種稱(chēng)為 “masking(遮罩)” 的新技術(shù),使模型這方面的能力得到了大幅加強(qiáng)。

模型會(huì)被要求完成類(lèi)似下面的填空題:

這位女士去___鍛煉。

他們買(mǎi)了一個(gè)___面包做三明治。

這個(gè)想法初衷是,如果強(qiáng)迫模型進(jìn)行數(shù)百萬(wàn)次的這類(lèi)練習(xí),它是否可能學(xué)會(huì)如何將單詞組合成句子以及如何將句子組合成段落。測(cè)試結(jié)果表明,模型確實(shí)獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關(guān)的搜索結(jié)果)。

在證明遮罩行之有效之后,技術(shù)人員試圖通過(guò)將文本中的單詞隱藏,將其應(yīng)用于視覺(jué)語(yǔ)言模型,例如:

一只站立在樹(shù)木旁的___。(來(lái)源:MIT TR)

通過(guò)數(shù)百萬(wàn)次的訓(xùn)練,它不僅可以發(fā)現(xiàn)單詞之間的組合模式,還可以發(fā)現(xiàn)單詞與圖像中元素之間的關(guān)聯(lián)。

這樣的結(jié)果就是模型擁有了將文字描述與視覺(jué)圖像相關(guān)聯(lián)的能力,就像人類(lèi)的嬰兒可以在他們所學(xué)的單詞同所見(jiàn)事物之間建立聯(lián)系一樣。

舉個(gè)例子,當(dāng)模型讀取到下面的圖片,便可以給出一個(gè)較為貼切標(biāo)題,如 “打曲棍球的女人”。或者它們可以回答諸如“球是什么顏色?” 之類(lèi)的問(wèn)題,因?yàn)槟P涂梢詫卧~ “球” 與圖像中的圓形物體關(guān)聯(lián)。

圖 | 女子曲棍球比賽 (來(lái)源:MIT TR)

一圖勝千言

技術(shù)人員想知道這些模型是否真的像嬰兒一樣 “學(xué)會(huì)” 了認(rèn)識(shí)這個(gè)世界。

孩子不僅可以在看到圖像時(shí)聯(lián)想到單詞,還可以在看到單詞時(shí)在頭腦中浮現(xiàn)出對(duì)應(yīng)的圖像,哪怕這個(gè)圖像是真實(shí)和想象的混合體。

技術(shù)人員嘗試讓模型做同樣的事情:根據(jù)文本生成圖像。然后模型吐出了無(wú)意義的像素圖案。

得到這樣的結(jié)果是有原因的,將文本轉(zhuǎn)換為圖像的任務(wù)相比其他要困難得多。AI2 的計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人 Ani Kembhavi 說(shuō),文本并未指定圖像中包含的所有內(nèi)容。因此,模型需要 “聯(lián)想” 許多現(xiàn)實(shí)世界的常識(shí)來(lái)填充細(xì)節(jié)。

例如,假設(shè) AI 被要求繪制“在道路上行走的長(zhǎng)頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過(guò)調(diào)整遮罩的方式,來(lái)教授 AI 所有這些隱式視覺(jué)知識(shí)。他們訓(xùn)練模型不是為了從對(duì)應(yīng)圖片中預(yù)測(cè)被遮蓋的單詞,而是為了讓它能從文本中 “腦補(bǔ)” 圖片中的缺失部分。

雖然模型最終生成的圖像并不完全真實(shí),但這不是重點(diǎn)。重要的是這預(yù)示著模型已經(jīng)包含了正確的高級(jí)視覺(jué)概念,即 AI 一定程度上具備了兒童的根據(jù)文本畫(huà)圖的能力。

圖 | AI2 模型根據(jù)文本生成的圖像示例 (來(lái)源:MIT TR)

視覺(jué)語(yǔ)言模型獲得此類(lèi)圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實(shí)際上具有一定程度的抽象能力,而這是理解世界的基本技能。

未來(lái),這項(xiàng)技術(shù)很可能對(duì)機(jī)器人領(lǐng)域產(chǎn)生極大影響。機(jī)器人可以使用語(yǔ)言進(jìn)行交流,當(dāng)它們對(duì)視覺(jué)信息的理解越好,就越能夠執(zhí)行復(fù)雜的任務(wù)。

Hajishirzi 說(shuō),從短期來(lái)看,這種可視化還可以幫助技術(shù)人員更好地理解 AI 模型的學(xué)習(xí)過(guò)程。之后,AI2 團(tuán)隊(duì)計(jì)劃展開(kāi)更多實(shí)驗(yàn),以提高圖像生成的質(zhì)量,并拓寬模型的視覺(jué)和語(yǔ)言。

文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301436
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265402

原文標(biāo)題:這些令人不安的照片,表明AI越來(lái)越聰明了!它正在學(xué)習(xí)根據(jù)文字生成圖片

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)2025年8月8日凌晨1點(diǎn),OpenAI以一場(chǎng)長(zhǎng)達(dá)1小時(shí)的線上發(fā)布會(huì)正式推出GPT-5。這場(chǎng)被業(yè)界稱(chēng)為“AI進(jìn)化分水嶺”的發(fā)布,終結(jié)了長(zhǎng)達(dá)兩年的技術(shù)猜測(cè),更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:<b class='flag-5'>AI</b>領(lǐng)域的重大飛躍

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    AI 處理文本的最小單位,可以是詞或詞的一部分 嵌入向量 把文字變成數(shù)字的\"翻譯\"方式 注意力機(jī)制 讓詞\"看到\"其他詞,理解關(guān)系 Q/K/V 查詢(xún)/鍵
    發(fā)表于 02-10 16:33

    腦海里AI8051U數(shù)據(jù)級(jí)聯(lián)的過(guò)程

    區(qū)分 3 個(gè)設(shè)備(設(shè)備 1=P2.0、設(shè)備 2=P2.1、設(shè)備 3=P2.2);文字顯示 / 音樂(lè)播放依賴(lài)基礎(chǔ)硬件(串口、蜂鳴器 P1.0),AI 對(duì)話簡(jiǎn)化為串口交互(實(shí)際需外接
    發(fā)表于 01-24 06:49

    2025年?yáng)|軟集團(tuán)在AI醫(yī)療領(lǐng)域?qū)崿F(xiàn)系統(tǒng)性跨越

    2025年,AI不再懸浮于“技術(shù)遐想”,而是深深扎根于“產(chǎn)業(yè)泥土”。這一年,AI與醫(yī)療的融合真正走向了場(chǎng)景深處——它開(kāi)始聽(tīng)懂醫(yī)生的嘆息,理順門(mén)診的擁堵,賦遠(yuǎn)方的診療。
    的頭像 發(fā)表于 01-15 14:18 ?656次閱讀

    日均省電超82萬(wàn)度!事關(guān)AI服務(wù)器GaN電源模塊

    !因此GaN技術(shù)變得十分重要。 一、AI大模型耗電量驚人,GaN技術(shù)成省電關(guān)鍵 這可不是在危言聳聽(tīng)。以著名的OpenAI為例:其GPT-3級(jí)別模型單次訓(xùn)練的耗電量約為128.7萬(wàn)度,相當(dāng)于300戶(hù)美國(guó)家庭一年的用電量;GPT-4
    的頭像 發(fā)表于 12-08 10:46 ?635次閱讀
    日均省電超82萬(wàn)度!事關(guān)<b class='flag-5'>AI</b>服務(wù)器GaN電源模塊

    GPT-5.1發(fā)布 OpenAI開(kāi)始拼情商

    -5.1 Thinking:高級(jí)推理模型,在簡(jiǎn)單任務(wù)上更快,在復(fù)雜任務(wù)上更持久,也更容易理解。 對(duì)于新上線的GPT-5.1大模型,OpenAI?官方表示出色的 AI 不僅是要夠聰明,還要讓人與之對(duì)
    的頭像 發(fā)表于 11-13 15:49 ?704次閱讀

    AI6G與衛(wèi)星通信:開(kāi)啟智能天網(wǎng)新時(shí)代

    的自主軌道調(diào)整和任務(wù)分配。當(dāng)檢測(cè)到某區(qū)域有緊急通信需求時(shí),AI系統(tǒng)自動(dòng)調(diào)整衛(wèi)星姿態(tài),將更多資源分配給該區(qū)域,無(wú)需地面人員干預(yù)。 AI還能根據(jù)衛(wèi)星健康狀況和環(huán)境條件,自主決定是否執(zhí)行某
    發(fā)表于 10-11 16:01

    【RA4M2-SENSOR】3、使用GPT定時(shí)器-PWM輸出

    ,這方面知識(shí)非常值得深入了解。 GPT 模塊可用于計(jì)數(shù)事件、測(cè)量外部輸入信號(hào)、作為通用計(jì)時(shí)器并產(chǎn)生周期性中斷、以及輸出周期性或 PWM 信號(hào)到 GTIOC 引腳。 GPT 也可用于輸出單個(gè)脈沖,但是注意
    發(fā)表于 09-01 15:20

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    圖像的快速鑒別,滿(mǎn)足實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的應(yīng)用需求。 3. 數(shù)據(jù)采集 AI圖片數(shù)據(jù)集,本項(xiàng)目使用gemini生成圖片,使用的是gem來(lái)實(shí)現(xiàn)的。 提示詞如下 你是一個(gè)能夠生成美術(shù)繪本風(fēng)格插畫(huà)的智
    發(fā)表于 08-21 13:59

    HarmonyOS AI輔助編程工具(CodeGenie)概述

    DevEco AI輔助編程工具(CodeGenie)基于BitFun Platform AI能力平臺(tái),為開(kāi)發(fā)者提供高效的應(yīng)用與服務(wù)AI編程支持,支持智能知識(shí)問(wèn)答,同時(shí)支持ArkTS代碼生成和萬(wàn)
    發(fā)表于 08-11 14:31

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說(shuō)明

    的內(nèi)容(不管是圖片、文字還是視頻)以及AI生成的內(nèi)容(也不管是什么形式),都要進(jìn)行審核功能,不能有違法違規(guī)信息,會(huì)進(jìn)行現(xiàn)場(chǎng)測(cè)試,但是測(cè)試標(biāo)準(zhǔn)為止,對(duì)我的項(xiàng)目的測(cè)試……就是在生成的內(nèi)容上加上了“買(mǎi)違禁物品
    發(fā)表于 06-30 18:37

    端側(cè)OCR文字識(shí)別實(shí)現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    獲取圖片url,把這個(gè)url和token再發(fā)給百度的ocr接口獲取識(shí)別數(shù)據(jù)……或者圖片轉(zhuǎn)base64以后把這個(gè)base64發(fā)給接口,然而鴻蒙這里,目前我也不知道啥原因(可能是發(fā)送請(qǐng)求的數(shù)據(jù)長(zhǎng)度有限
    發(fā)表于 06-30 18:07

    鴻蒙5開(kāi)發(fā)寶藏案例分享---AI輔助圖文內(nèi)容高效編創(chuàng)

    自動(dòng)摳圖 圖片文字智能識(shí)別 HDR Vivid高清渲染 無(wú)縫接續(xù)編輯 編輯內(nèi)容實(shí)時(shí)同步多設(shè)備 分布式文件系統(tǒng)自動(dòng)同步素材 三、關(guān)鍵功能實(shí)現(xiàn)詳解 1. AI圖片處理(OCR+摳圖) //
    發(fā)表于 06-12 11:40

    【名單公布】【五一打卡】勞動(dòng)最光榮!分享勞動(dòng)風(fēng)采,把小智AI套件帶回家

    根據(jù)內(nèi)容質(zhì)量進(jìn)行先后排序,選出3名最佳回復(fù),送出小智AI機(jī)器人套件(ESP32S3) 優(yōu)質(zhì)回復(fù)內(nèi)容要求: 內(nèi)容新穎,字句通暢,要求文字不少于
    發(fā)表于 04-28 16:53

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦終端生態(tài)。 大會(huì)上,聯(lián)發(fā)科定義了“智能體化用戶(hù)體驗(yàn)”的五大特征:主動(dòng)及時(shí)、知你懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化和專(zhuān)屬隱私信息守護(hù)。這五大特征需要跨越從芯片、模型、應(yīng)用、終端乃至整個(gè)
    發(fā)表于 04-13 19:52