如今人工智能越來越強(qiáng)大,比如可以實(shí)現(xiàn)生成音樂、改變圖片藝術(shù)風(fēng)格等等。最近,人工智能非營利組織OpenAI發(fā)布了一個(gè)名為DALL-E的神經(jīng)網(wǎng)絡(luò),可以將文本轉(zhuǎn)換成與內(nèi)容相關(guān)的圖像。
比如生成下面這些穿著芭蕾舞裙揮舞著光劍的熊貓寶寶:
OpenAI在一篇博文中表示,該系統(tǒng)是具有里程碑意義的GPT-3語言模型的120億參數(shù)版本。
DALL-E模型具有多種功能,包括創(chuàng)建動(dòng)物和物體的擬物化版本,以合理的方式展示相關(guān)的概念,渲染文本,以及對現(xiàn)有圖像進(jìn)行轉(zhuǎn)換。
比如在該模型中選定“與貓有關(guān)的文本關(guān)鍵詞”,同時(shí)選擇給定的其中一種貓類型,最終系統(tǒng)會(huì)自動(dòng)生成一系列與貓主題有關(guān)的圖像,并且風(fēng)格呈現(xiàn)多樣化。
訓(xùn)練該模型的數(shù)據(jù)集主要基于互聯(lián)網(wǎng)大量文本-圖像。這使得它能夠通過探索提示的結(jié)構(gòu)來創(chuàng)造出全新的圖片。比如生成一些令人印象深刻的地標(biāo)、位置、雜交動(dòng)物和不同年代設(shè)計(jì)的圖像。但是OpenAI承認(rèn)并不是所有的結(jié)果都是成功的。
不過,OpenAI承認(rèn)并不是所有生成的結(jié)果都是成功的。該公司表示,DALL-E系統(tǒng)有時(shí)無法繪制出某些特定的項(xiàng)目,混淆了對象與其特定屬性之間的關(guān)系。
通常,提示DALL-E寫的字符串越長,成功率越低。測試中發(fā)現(xiàn),重復(fù)部分文本內(nèi)容,準(zhǔn)確率有所提高。
當(dāng)回答有關(guān)地理方面的問題時(shí),比如旗幟、菜肴和當(dāng)?shù)匾吧鷦?dòng)物,DALL-E也經(jīng)常反映出膚淺的刻板印象。考慮到人們越來越關(guān)注人工智能算法偏見的問題,這個(gè)缺點(diǎn)尤為明顯。
OpenAI表示,它計(jì)劃分析DALL-E等模特的社會(huì)影響,但該公司認(rèn)為,該系統(tǒng)表明“通過語言操縱視覺概念現(xiàn)在已經(jīng)觸手可及。”
感興趣的小伙伴可以在OpenAI網(wǎng)站上查看更多DALL-E模型生成的圖像。
責(zé)編AJX
-
圖像處理
+關(guān)注
關(guān)注
29文章
1342瀏覽量
59574 -
AI
+關(guān)注
關(guān)注
91文章
39926瀏覽量
301564 -
模型
+關(guān)注
關(guān)注
1文章
3758瀏覽量
52131
發(fā)布評論請先 登錄
大模型 ai coding 比較
使用NORDIC AI的好處
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
【Sipeed MaixCAM Pro開發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)
在K230中,如何使用AI Demo中的object_detect_yolov8n,YOLOV8多目標(biāo)檢測模型?
無法將Tensorflow Lite模型轉(zhuǎn)換為OpenVINO?格式怎么處理?
將Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時(shí)間增加,怎么解決?
2.0.0版本的ST Edge AI Core在linux平臺上可以把量化后的onnx模型轉(zhuǎn)換為.nb,但是運(yùn)行報(bào)錯(cuò),缺少文件,為什么?
AI技術(shù)助力全球野生動(dòng)植物保護(hù)
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
把樹莓派打造成識別文本的“神器”!
使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成
AI新模型可將文本轉(zhuǎn)換為生動(dòng)的圖像
評論