OpenAI正式推出GPT-4o模型，支持實時音頻、視覺和文本推理處理

據(jù)報道，OpenAI于昨日凌晨推出了全新的GPT-4o模型，是對前期產(chǎn)品GPT-4的進(jìn)階改進(jìn)版。這一模型擁有實時推理處理視覺、音頻及文字信息的強(qiáng)大能力，尤其在與ChatGPT的對接使用方面表現(xiàn)出色。

緊接著，OpenAI總裁暨聯(lián)合創(chuàng)始人Greg Brockman發(fā)布了詳細(xì)演示，展示了兩部搭載GPT-4o的設(shè)備如何實現(xiàn)語音或視頻交互。

在演示前，Brockman表達(dá)了希望兩部AI聊天機(jī)器人能夠進(jìn)行有效溝通的愿望。他向A聊天機(jī)器人闡述了這一想法，并允許B聊天機(jī)器人調(diào)用攝像頭觀察周邊環(huán)境。

B聊天機(jī)器人成功調(diào)用前置攝像頭，清晰地呈現(xiàn)了用戶的著裝以及所在環(huán)境。接著，A聊天機(jī)器人與其展開對話，詢問相關(guān)問題，如調(diào)整攝像頭視角等。

在此過程中，新版ChatGPT不僅借助視覺AI技術(shù)理解攝像頭中的畫面，還能通過語音交互實現(xiàn)更豐富有趣的互動體驗，同時支持中途打斷和對話插入，并具備上下文記憶功能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴