91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT重磅升級!新語音和圖像輸入功能,讓ChatGPT能看、能聽、能說

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-09-28 00:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日消息,OpenAI在一篇博客中表示,ChatGPT 將推出新的語音和圖像功能。用戶不僅可以在文本框中輸入文字提示,還可以通過語音或圖像與ChatGPT交流。OpenAI稱,新功能在未來兩周內(nèi)向付費用戶推出,不久后會推廣到其他用戶。

ChatGPT 是OpenAI推出的一種人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠基于在預訓練階段所見的模式和統(tǒng)計規(guī)律,來生成回答,還能根據(jù)聊天的上下文進行互動,能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)。自2022年11月30日發(fā)布以來,ChatGPT 已經(jīng)進行了多次功能升級。

ChatGPT現(xiàn)在能看、能聽、能說了

ChatGPT使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),也是GPT-3.5架構(gòu),這是一種用于處理序列數(shù)據(jù)的模型,擁有語言理解和文本生成能力,尤其是它會通過連接大量的語料庫來訓練模型,這些語料庫包含了真實世界中的對話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進行互動的能力,做到與真正人類幾乎無異的聊天場景進行交流。

2022年11月30日,ChatGPT剛面世就迅速在社交媒體上走紅,短短5天,注冊用戶數(shù)超過100萬。2023年一月末,ChatGPT的月活用戶突破1億,成為史上增長最快的消費者應用。

2023年2月2日,OpenAI發(fā)布ChatGPT試點訂閱計劃——ChatGPT Plus。ChatGPT Plus以每月20美元的價格提供,訂閱者可獲得比免費版本更穩(wěn)定、更快的服務(wù),及嘗試新功能和優(yōu)化的優(yōu)先權(quán)。同日,微軟發(fā)布公告稱,旗下所有產(chǎn)品將全線整合ChatGPT。

2023年3月15日,OpenAI正式推出GPT-4。GPT-4是多模態(tài)大模型,即支持圖像和文本輸入以及文本輸出,擁有強大的識圖能力。GPT-4的特點在于:第一,它的訓練數(shù)量更大;第二,支持多元的輸出輸入形式;第三,在專業(yè)領(lǐng)域的學習能力更強。

2023年5月18日,OpenAI官網(wǎng)宣布推出iOS版ChatGPT應用,該應用可免費使用,并在不同設(shè)備間同步用戶的歷史記錄。該應用還集成了OpenAI開源語音識別系統(tǒng)Whisper,支持語音輸入。ChatGPT Plus付費訂閱用戶可以獨家使用GPT-4功能。

2023年7月,OpenAI宣布推出定制指令功能,以便客戶更好地控制ChatGPT的回應方式。此外,OpenAI還發(fā)布公告稱,給ChatGPT加了一個名為Custom instructions的新功能。2023年7月25日,OpenAI宣布,安卓版ChatGPT正式上線。

2023年9月25日,OpenAI發(fā)布《ChatGPT 現(xiàn)在能看、能聽、能說了》的公告,宣布ChatGPT 增加語音輸入和圖像輸入兩項新功能。這可以說是ChatGPT 發(fā)布以來極其重大的更新。

據(jù)介紹,語音輸入功能類似于手機上的語音助手,用戶只需要輕輕點擊一個按鈕,說出自己的問題,ChatGPT能將這些口述的問題轉(zhuǎn)換成文本,將其輸入至大語言模型中,生成答案,接著將答案轉(zhuǎn)化成語音,播放給用戶。

語音轉(zhuǎn)文本的任務(wù)由OpenAI 的 Whisper 模型提供支持。同時,該公司正在引入一款全新的文本轉(zhuǎn)語音的模型,據(jù)稱可以通過幾秒鐘的語音樣本生成與人類相似的音頻。

圖像輸入功能類似于Google Lens,用戶可以拍攝自己感興趣的事物,并上傳到ChatGPT中,ChatGPT會嘗試識別用戶想要詢問的內(nèi)容,并給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題,或者配合語音或文本輸入來進行交流。

用戶可以向ChatGPT展示一張或多張圖片,提問相關(guān)的問題。比如,發(fā)送一張壞掉的燒烤爐圖片,然后詢問無法啟動原因;拍攝一張冰箱中的食材,詢問多種菜品制作方案。

OpenAI還放出了一段視頻,是和ChatGPT商量著修自行車,不斷問ChatGPT:這里是扳手嗎?是調(diào)整這里嗎?甚至還把說明書拍照發(fā)給ChatGPT求解釋。

這正是ChatGPT獨特的特性所帶來的幫助,用戶可以與機器人進行互動,逐步完善答案,而無需首先進行搜索并在得到錯誤答案后再次搜索。

ChatGPT新增語音和圖像功能帶來的風險

OpenAI在博客中表示,其目標是構(gòu)建安全有益的通用人工智能(AGI)。新增的語音和圖像功能可能會帶來一些風險,但是OpenAI正在采取措施緩解這些風險。

新的語音技術(shù)能夠在短短幾秒鐘的真實語音片段中生成逼真的合成語音,這一技術(shù)存在潛在風險,比如,惡意行為者可能會濫用這項技術(shù),冒充公眾人物或?qū)嵤┢墼p。為了避免這些問題的發(fā)生,OpenAI決定將這項技術(shù)應用于特定的場景中,會受到嚴格的限制。

新的圖像功能也帶來一定風險,在進行更廣泛的部署之前,OpenAI測試了該模型在極端主義和科學領(lǐng)域等方面潛在的風險,并對一些關(guān)鍵細節(jié)進行了調(diào)整,來確保負責任地應用這項技術(shù)。比如,在處理人物圖片時,OpenAI限制了ChatGPT 對人物進行分析和直接評價的能力,這意味著上傳一個人的照片就能知道那是誰無法實現(xiàn),這是為了隱私安全。

ChatGPT自發(fā)布以來,在受到廣大用戶追捧的同時,其伴隨的風險也讓各界人士表示擔憂。一是它可能在被使用的過程中造成數(shù)據(jù)信息的丟失;二是它也可能會被一些不法分子用來實施欺詐行為。在過去這大半年時間里,不少機構(gòu)也在反對ChatGPT的使用和進一步研究。

2023年2月3日,IT行業(yè)的領(lǐng)導們擔心,ChatGPT已經(jīng)被黑客們用于策劃網(wǎng)絡(luò)攻擊時使用。黑莓(Black Berry)的一份報告調(diào)查了英國500名IT行業(yè)決策者對ChatGPT這項革命性技術(shù)的看法,發(fā)現(xiàn)超過四分之三(76%)的人認為,外國已經(jīng)在針對其他國家的網(wǎng)絡(luò)戰(zhàn)爭中使用ChatGPT。近一半的人認為,2023年,將會出現(xiàn)有人惡意使用ChatGPT成功進行網(wǎng)絡(luò)攻擊。

2023年4月,中國支付清算協(xié)會倡議支付行業(yè)從業(yè)人員謹慎使用ChatGPT。4月13日,西班牙國家數(shù)據(jù)保護局和法國國家信息自由委員會分別宣布對ChatGPT展開調(diào)查。

在各界人士對ChatGPT存在風險的質(zhì)疑聲中,OpenAI也一直在尋找解決辦法,如何讓其在增加新功能的同時而不會帶來新的問題。從這次的功能升級來看,OpenAI試圖通過有意限制新模型的功能,來達到更進一步提升功能和同時帶來新問題的平衡。OpenAI表示,將不斷改進和完善風險緩解措施,未來為大家提供更強大的系統(tǒng)。

總結(jié)

ChatGPT自出世以來就引起了廣泛關(guān)注,過去近一年時間,OpenAI對其底層模型和界面也進行了多次升級。如今,ChatGPT更是進行了一次重磅升級,新增語音輸入和圖像輸入功能,讓ChatGPT實現(xiàn)了能看、能聽、能說的能力。

與此同時,ChatGPT在使用中存在的風險一直以來也是各界擔心的問題,此次增加的新功能更是可能帶來新的風險。不過在過去這段時間,OpenAI也一直致力于尋找解決辦法,就比如在這次功能升級中,OpenAI通過一些限制來在實現(xiàn)新功能的同時也避免可能帶來新風險。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10264
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    巨頭競逐AI醫(yī)療健康:OpenAI推出ChatGPT Health,螞蟻阿福國內(nèi)領(lǐng)跑

    健康已成為AI技術(shù)的高頻應用場景。OpenAI在其一篇博客文章中透露,通過分析匿名化的ChatGPT對話數(shù)據(jù),發(fā)現(xiàn)全球每周有超過2.3億人在ChatGPT上咨詢健康相關(guān)問題,醫(yī)療健康的需求極為旺盛。
    的頭像 發(fā)表于 01-10 11:17 ?2411次閱讀

    訊飛智文產(chǎn)品完成重磅升級

    2026年伊始,當智能體成為人人可用的數(shù)字生產(chǎn)力,訊飛智文完成重磅升級。全新打造的「智能演練」與「AI演示官」,首次實現(xiàn)“寫、練、演”一體化的表達鏈路,重塑AI PPT全流程,每個觀點都能被從容講述、生動傳遞。
    的頭像 發(fā)表于 01-08 16:41 ?821次閱讀

    WT2003H以語音提示+遠程MCU更新語音為核心的解決方案,為電動車儀表的智能化升級提供了一條清晰的路徑!

    小伙伴們,歡迎來到本期的唯創(chuàng)#WT語音芯片小課堂!今天我們要聊的這款產(chǎn)品,可能會很多電動車用戶和車企朋友眼前一亮——WT2003H語音芯片,一個電動車儀表"
    的頭像 發(fā)表于 12-24 12:03 ?499次閱讀
    WT2003H以<b class='flag-5'>語音</b>提示+遠程MCU更<b class='flag-5'>新語音</b>為核心的解決方案,為電動車儀表的智能化<b class='flag-5'>升級</b>提供了一條清晰的路徑!

    上線!國產(chǎn)AI語音開發(fā)板,定制你的聊天伙伴助手

    伙伴們,之前我們將Ai-M61模組接入了ChatGPT,弄了語音AI,光API調(diào)用費就能吃掉半年奶茶錢!也有不少小伙伴在留言區(qū)表示“貴啊”(詳情看這里:能和Ai-M61模組對話了?手搓一個
    的頭像 發(fā)表于 11-20 11:53 ?856次閱讀
    上線!國產(chǎn)AI<b class='flag-5'>語音</b>開發(fā)板,定制你的聊天伙伴助手

    重磅升級!迅為iTOP-Hi3403開發(fā)板SDK全面升級至Linux?6.6內(nèi)核

    重磅升級!迅為iTOP-Hi3403開發(fā)板SDK全面升級至Linux?6.6內(nèi)核】
    的頭像 發(fā)表于 11-18 13:34 ?1004次閱讀
    <b class='flag-5'>重磅</b><b class='flag-5'>升級</b>!迅為iTOP-Hi3403開發(fā)板SDK全面<b class='flag-5'>升級</b>至Linux?6.6內(nèi)核

    新語音交互體驗:A-59P 升級版 AI 降噪語音處理模組重磅來襲

    語音處理
    芯慧創(chuàng)科技崇仁縣有限公司
    發(fā)布于 :2025年11月03日 10:11:11

    RT-Thread BSP v1.10.0 重磅發(fā)布 | 開發(fā)環(huán)境全面升級

    RT-ThreadBSPv1.10.0帶來三大重磅升級:多工具鏈支持、HPM5E00系列支持、獨立導出功能,先楫MCU開發(fā)更簡單、更高效!核心亮點三大突破性
    的頭像 發(fā)表于 08-29 12:21 ?1158次閱讀
    RT-Thread BSP v1.10.0 <b class='flag-5'>重磅</b>發(fā)布 | 開發(fā)環(huán)境全面<b class='flag-5'>升級</b>

    七牛云發(fā)布靈矽 AI:600ms超低延遲,重塑智能硬件語音交互新范式

    8 月 15 日,七牛云正式發(fā)布靈矽 AI —為新一代智能硬件而生的語音交互新范式,智能硬件不僅會“說話”,更能聽懂情緒、自然交流。這不僅是語音交互技術(shù)從“能用”到“好用”的
    的頭像 發(fā)表于 08-15 15:33 ?869次閱讀
    七牛云發(fā)布靈矽 AI:600ms超低延遲,重塑智能硬件<b class='flag-5'>語音</b>交互新范式

    WT2606B 驅(qū)屏語音芯片新增藍牙功能功能集成一體化,產(chǎn)品升級自動化,語音交互無線化,場景應用普適化!

    WT2606B 驅(qū)屏語音芯片新增藍牙功能功能集成一體化,產(chǎn)品升級自動化,語音交互無線化,場景應用普適化!
    的頭像 發(fā)表于 08-14 12:05 ?598次閱讀
    WT2606B 驅(qū)屏<b class='flag-5'>語音</b>芯片新增藍牙<b class='flag-5'>功能</b>:<b class='flag-5'>功能</b>集成一體化,產(chǎn)品<b class='flag-5'>升級</b>自動化,<b class='flag-5'>語音</b>交互無線化,場景應用普適化!

    ChatGPT 智能體發(fā)布的觀點解析及對科義相關(guān)系統(tǒng)的現(xiàn)實意義

    人工智能技術(shù)在多能力融合與復雜任務(wù)處理上實現(xiàn)了重大突破。ChatGPT 智能體并非簡單地將各項功能進行堆砌,而是實現(xiàn)了 Operator 智能體網(wǎng)頁交互能力、“深入研究” 功能的互聯(lián)網(wǎng)信息搜集能力以及自身對話能力的有機統(tǒng)一。這種
    的頭像 發(fā)表于 07-18 16:31 ?1.3w次閱讀

    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    AI現(xiàn)在就像一個小朋友,很容易就學壞了!OpenAI剛剛發(fā)現(xiàn),如果用錯誤的數(shù)據(jù)微調(diào)自家的模型的一個領(lǐng)域,ChatGPT就會把在這個領(lǐng)域?qū)W到的「惡」和「壞」泛化到其他領(lǐng)域。比如「刻意」用錯誤數(shù)據(jù)在汽車
    的頭像 發(fā)表于 06-20 12:41 ?1.5w次閱讀
    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),<b class='flag-5'>ChatGPT</b>善惡開關(guān)已開啟

    樹莓派與EthernetHat:用ChatGPT實現(xiàn)的MQTT智能家居項目!

    我們使用Pico、WIZnetW5100S和PicoBricks開發(fā)板開發(fā)了MQTTRGB燈,通過ChatGPT4.0生成和優(yōu)化代碼。項目所需組件硬件組件PicoBricks擴展板x1WIZnetW5100S-EVB-Picox1WIZnetW5500-EVB-PicoWIZnet以太網(wǎng)HATx1樹莓派Picox1
    的頭像 發(fā)表于 06-03 15:29 ?1.5w次閱讀
    樹莓派與EthernetHat:用<b class='flag-5'>ChatGPT</b>實現(xiàn)的MQTT智能家居項目!

    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    盡管這種電話在幾十年前就已過時,但許多人都對旋轉(zhuǎn)撥號電話記憶猶新。這些舊電話,其實可以被改造成一個ChatGPT熱線。這個由PolluxLabs開發(fā)的項目,你可以將一部復古的旋轉(zhuǎn)撥號電話連接到樹莓
    的頭像 發(fā)表于 04-13 09:04 ?1.6w次閱讀
    樹莓派遇上<b class='flag-5'>ChatGPT</b>,魔法熱線就此誕生!

    和安信可Ai-M61模組對話?手搓一個ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    能和Ai-M61模組對話了?手搓一個ChatGPT 語音助手

    起猛了, 安信可的Ai-M61模組能說話了! 超低延遲實時秒回 ,對話超絲滑的那種,先來看一段VCR: 小安派+ChatGPT語音實測:對話絲滑到忘記對面是AI_ 人工智能的應用日益廣泛。 各家模型
    的頭像 發(fā)表于 03-12 11:57 ?1.2w次閱讀
    能和Ai-M61模組對話了?手搓一個<b class='flag-5'>ChatGPT</b> <b class='flag-5'>語音</b>助手