91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK 76: (原創(chuàng)) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態(tài)的ChatGPT(萬(wàn)字長(zhǎng)文)

共熵服務(wù)中心 ? 來(lái)源:未知 ? 2023-05-11 20:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

a5d8f2be-e7d0-11ed-ab56-dac502259ad0.png

a5e501e4-e7d0-11ed-ab56-dac502259ad0.png

一個(gè)月前,就在GPT 4發(fā)布的第二天,同時(shí)也是英偉達(dá)(NVIDIA)線上大會(huì)的契機(jī),英偉達(dá)的創(chuàng)始人兼CEO黃仁勛("Jensen" Huang)與OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞-蘇茨克維(Ilya Sutskever )展開了一次信息量巨大的長(zhǎng)達(dá)一個(gè)小時(shí)的“爐邊談話”(Fireside Chats)。期間談到了從伊爾亞-蘇茨克維早期介入神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí),基于壓縮的無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、GPT的發(fā)展路徑,以及對(duì)未來(lái)的展望。相信很多人都已經(jīng)看過(guò)了這次談話節(jié)目。我相信,因?yàn)槠渲袚诫s的各種專業(yè)術(shù)語(yǔ)和未經(jīng)展開的背景,使得無(wú)專業(yè)背景的同仁很難徹底消化理解他們談話的內(nèi)容。本系列嘗試將他們完整的對(duì)話進(jìn)行深度地解讀,以便大家更好地理解ChatGPT到底給我們帶來(lái)了什么樣的變革。今天,就是這個(gè)系列的第五篇:將要擁抱多模態(tài)的ChatGPT。

關(guān)聯(lián)回顧

解讀老黃與Ilya的爐邊談話系列之一——故事要從AlexNet說(shuō)起

解讀老黃與Ilya的爐邊談話系列之二——信仰、準(zhǔn)備、等待機(jī)會(huì)的涌現(xiàn)

解讀老黃與Ilya的爐邊談話系列之三——超越玄幻,背后是人類老師的艱辛付出

解讀老黃與Ilya的爐邊談話系列之四——人人都是ChatGPT的訓(xùn)練器

讓ChatGPT自己來(lái)談一談人工智能倫理

全圖說(shuō)ChatGPT的前世今生

a5ed3792-e7d0-11ed-ab56-dac502259ad0.png

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

對(duì)話譯文(05):

黃仁勛:多模態(tài) GPT-4 具備從文本和圖像中學(xué)習(xí),并對(duì)文本和圖像輸入做出響應(yīng)的能力。首先,多模態(tài)學(xué)習(xí)的基礎(chǔ)是Transformer,它使得我們可以從多個(gè)模態(tài)中學(xué)習(xí),例如把文本和圖像 token 化。在此基礎(chǔ)上,它還幫助我們理解多模態(tài)是如何增強(qiáng)對(duì)世界的認(rèn)知。我的理解是,除了文本本身外,當(dāng)你在訓(xùn)練多模態(tài)模型時(shí),甚至僅僅使用文本提示詞時(shí),文本提示詞本身就可以提升文本理解。從基礎(chǔ)上來(lái)看,多模態(tài)為什么如此重要?重大突破是什么,以及由此產(chǎn)生的特征差異是什么?

Ilya Sutskever:有兩個(gè)維度可以解釋多模態(tài)學(xué)習(xí)的重要性,或者說(shuō)是兩個(gè)原因讓它變得有趣。第一個(gè)原因有點(diǎn)謙虛,多模態(tài)是有用的,對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)看到多種形式的數(shù)據(jù)是有幫助的,特別是視覺(jué)數(shù)據(jù)。因?yàn)槭澜缡欠浅R曈X(jué)化的,人類是非常視覺(jué)化的動(dòng)物。人類大腦皮層的三分之一都用于視覺(jué),因此如果沒(méi)有視覺(jué),盡管我們的神經(jīng)網(wǎng)絡(luò)的效用仍然相當(dāng)可觀,但效用可能不如想象的那么大。這是一個(gè)非常簡(jiǎn)單的效用性的論點(diǎn)。很顯然,GPT-4 可以“看”得很好。

第二個(gè)原因是,除了從文本學(xué)習(xí)之外,我們還可以從圖像中學(xué)習(xí)這個(gè)世界的知識(shí)。這也是一個(gè)有力的論點(diǎn),盡管它像看上去不是那么明確。我給你舉個(gè)例子,或者說(shuō)在舉例之前,我要給出一個(gè)寬泛的說(shuō)法,作為人類,我們?cè)谡麄€(gè)生命中只能聽到大約10億個(gè)詞。

黃仁勛:只有10億個(gè)詞?

Ilya Sutskever:是的,只有10億個(gè)詞。

黃仁勛:真令人驚訝,這不是很多。

Ilya Sutskever:是的,不是很多。

黃仁勛:它包不包括我腦海里的詞?

Ilya Sutskever:那我們權(quán)且說(shuō)20億個(gè)詞好啦,你懂我的意思吧。你知道,因?yàn)?0億秒等于30年。所以你可以看到,我們每秒鐘只能看到幾個(gè)詞,并且我們有一半的時(shí)間都在睡覺(jué)。我們?cè)谝簧兄荒塬@得幾十億個(gè)詞。因此,對(duì)我們來(lái)說(shuō),獲得盡可能多的信息來(lái)源變得非常重要,我們從視覺(jué)中學(xué)到的東西要多得多。

對(duì)我們的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),同樣的論點(diǎn)也是適用的。神經(jīng)網(wǎng)絡(luò)可以從相當(dāng)多的詞中學(xué)習(xí),原本很難從幾十億詞的文本中認(rèn)知世界,可能會(huì)從數(shù)萬(wàn)億詞中變得更容易。舉個(gè)例子,比如顏色,人們需要看到顏色才能理解顏色。但是神經(jīng)網(wǎng)絡(luò)在“一生中”從沒(méi)有“看”過(guò)一張照片,如果你問(wèn)它們哪些顏色彼此更相似,它知道紅色比藍(lán)色更接近橙色,它也知道藍(lán)色比黃色更接近紫色。

這是怎么實(shí)現(xiàn)的?一個(gè)答案是這個(gè)世界的信息,甚至是視覺(jué)的信息會(huì)慢慢通過(guò)文本傳播出去。但是它非常緩慢,不是很快速。所以當(dāng)你有很多文本時(shí),你仍然可以學(xué)習(xí)到很多東西。當(dāng)然,當(dāng)你加入視覺(jué)信息,并從視覺(jué)中學(xué)習(xí)知識(shí),你就會(huì)學(xué)到額外的知識(shí),這些知識(shí)是無(wú)法通過(guò)文本獲得的。

但我不會(huì)說(shuō),這是一個(gè)二元的關(guān)系,有些東西無(wú)法從文本中學(xué)習(xí)到。我認(rèn)為這更像是一種匯率,特別是當(dāng)你想學(xué)習(xí)的時(shí)候,如果你像一個(gè)人一樣從10億個(gè)詞或1億個(gè)詞中學(xué)習(xí),那么有其他信息來(lái)源會(huì)變得重要得多。

黃仁勛:是的,你可以從圖像中學(xué)習(xí)。是不是意味著,如果我們也想了解世界的結(jié)構(gòu),就像我的手臂連接著我的肩膀,再連接我的手肘就能移動(dòng),這個(gè)世界的動(dòng)畫,這個(gè)世界的物理,如果我也想了解這一點(diǎn),我能只看視頻就學(xué)會(huì)嗎?

Ilya Sutskever:是的。

黃仁勛:如果我想擴(kuò)展所有這些,例如,如果有人說(shuō)“great”的意思,“great”可以是“great(太好了)”,“great”也可以是“great(還好)”。你知道,一個(gè)是興奮的,一個(gè)是諷刺的。像這樣的詞還有很多,比如“That's sick”,指的是“I’m sick(我生病了)”,或者“I’m sick(我惡心了)”。根據(jù)人們的語(yǔ)氣不同,含義也不同。那么,音頻對(duì)于模型學(xué)習(xí)也會(huì)有幫助嗎?我們會(huì)好好利用它嗎?

Ilya Sutskever:是的,我認(rèn)為肯定是這樣。那么關(guān)于音頻,我們能說(shuō)些什么呢?它很有用,它是一個(gè)額外的信息來(lái)源,可能不如視頻圖片那樣重要。但是,這種情況下還是有必要的。音頻的實(shí)用性,無(wú)論是在識(shí)別方面還是在生成方面。

黃仁勛:在我看到的測(cè)試中,最有趣的是你們發(fā)布的數(shù)據(jù),GPT-3在哪些測(cè)試中表現(xiàn)更好?GPT-4 在哪些測(cè)試中表現(xiàn)更好?你認(rèn)為多模態(tài)在這些測(cè)試中起了多少作用?

Ilya Sutskever:直觀的說(shuō),每當(dāng)有一個(gè)測(cè)試需要理解問(wèn)題的圖表時(shí),比如說(shuō)在某些數(shù)學(xué)競(jìng)賽中,比如高中生的數(shù)學(xué)競(jìng)賽AMC 12,很多問(wèn)題可能都有圖表。因此,GPT-3.5在測(cè)試中表現(xiàn)很差。GPT-4 僅使用文本時(shí)的準(zhǔn)確率可能只有2%到20%,但是當(dāng)加入視覺(jué)時(shí),它的成功率躍升至40%。因此,視覺(jué)確實(shí)做了很多工作。視覺(jué)非常出色,我認(rèn)為能夠進(jìn)行視覺(jué)推理和視覺(jué)交流,我們也將變得非常強(qiáng)大,非常棒。

從我們對(duì)世界中僅僅幾個(gè)事物的了解,發(fā)展到你可以了解整個(gè)世界,然后你可以把這個(gè)世界做視覺(jué)化的推理,視覺(jué)化的溝通?,F(xiàn)在是在哪里,未來(lái)又在哪里?也許在某個(gè)未來(lái)版本中,如果你問(wèn)神經(jīng)網(wǎng)絡(luò)“嘿,給我解釋一下這個(gè)”,它將不僅僅產(chǎn)生四個(gè)段落,而是像一個(gè)小圖表一樣,清楚地傳達(dá)給你需要知道的信息。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

智愿君:讓我們繼續(xù)解讀老黃和Ilya爐邊談話的第五段對(duì)話,這一段還蠻聚焦的,就談了一個(gè)話題——多模態(tài)。上回,我們談到了ChatGPT本質(zhì)上還是圍繞著文本展開的一個(gè)聊天機(jī)器人,盡管GPT-4有圖形識(shí)別能力,但是還沒(méi)有打開。但以上絕非是OpenAI滿意的現(xiàn)狀,今天我們就來(lái)聊聊多模態(tài)。

多模態(tài)其實(shí)是信息溝通通道的概念

今天的對(duì)話中一開始老黃就談到了多模態(tài)。很多人可能第一個(gè)問(wèn)題就是:到底什么是多模態(tài)交互呢?

人和一個(gè)智能系統(tǒng)交互的時(shí)候,存在雙方相互理解的過(guò)程,也就是雙方都通過(guò)各種通道去表達(dá),然后也都通過(guò)各種通道去分析對(duì)方的意圖。多模態(tài)是站在智能系統(tǒng)一方來(lái)表達(dá),它更多強(qiáng)調(diào)的是智能系統(tǒng)通過(guò)多個(gè)通道去捕獲人和環(huán)境的信息,或者通過(guò)多個(gè)通道去呈現(xiàn)信息。

a6038b64-e7d0-11ed-ab56-dac502259ad0.png

從多個(gè)通道呈現(xiàn)信息并非是個(gè)新鮮概念,比如我們的電影就是同時(shí)有畫面和聲音的多通道呈現(xiàn)的。而今天聊的多模態(tài)重點(diǎn)說(shuō)的是多模態(tài)交互的另一個(gè)方面:智能系統(tǒng)如何從更多個(gè)通道獲取用戶的意圖。

我們來(lái)做一下類比,例如計(jì)算機(jī)視覺(jué)就是通過(guò)攝像頭模擬人的視覺(jué),從而幫助智能系統(tǒng)來(lái)感知世界。但這不是簡(jiǎn)單的模擬,機(jī)器視覺(jué)有其獨(dú)特的、并且還在不斷高速演進(jìn)中的技術(shù)優(yōu)勢(shì)。比如在分辨率、景深、可見光和非可見光光譜范圍、多自由度視覺(jué)捕獲能力等方面,以及AI和大數(shù)據(jù)加持的圖像識(shí)別、海量攝像頭數(shù)據(jù)分析及挖掘能力上,都會(huì)讓計(jì)算機(jī)視覺(jué)表現(xiàn)出驚人的力量和生命力。

我下面列出了幾種類似的感知覺(jué)技術(shù)優(yōu)勢(shì)和演進(jìn)方向的表格,你可以對(duì)照著感受一下。

a6214712-e7d0-11ed-ab56-dac502259ad0.png

因?yàn)橹悄芟到y(tǒng)的演進(jìn)速度非??欤夹g(shù)的能力邊界也在不斷提升,很多已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人類。所以才會(huì)有上述老黃和Ilya談話過(guò)程中,Ilya說(shuō)的“GPT-4 可以“看”得很好”。

需要被刮目相看的機(jī)器視覺(jué)

視覺(jué)是如此被重視,是因?yàn)槿祟悓?duì)整個(gè)世界的認(rèn)知,也絕大多數(shù)都是通過(guò)視覺(jué)來(lái)認(rèn)知的。

從生理學(xué)上來(lái)講,人眼有 700 萬(wàn)視錐細(xì)胞和 1億2000萬(wàn)視桿細(xì)胞。視錐細(xì)胞幫助我們看到顏色,視桿細(xì)胞幫助我們分辨明暗。我們眼睛可以分辨約一千萬(wàn)種顏色(360到830納米可見光波長(zhǎng)范圍內(nèi))。在大腦本身,致力于視覺(jué)處理的神經(jīng)元數(shù)以億計(jì),約占大腦皮層的 30%,而觸覺(jué)神經(jīng)元占 8%,聽覺(jué)神經(jīng)元僅占 3%。將信號(hào)從視網(wǎng)膜傳送到大腦的兩條視神經(jīng)中的每一條都由一百萬(wàn)條纖維組成;每條聽覺(jué)神經(jīng)僅攜帶 30,000 個(gè)。

實(shí)驗(yàn)心理學(xué)家赤瑞特拉(Treicher)通過(guò)大量的實(shí)驗(yàn)證實(shí):人類獲取的信息83%來(lái)自視覺(jué),11%來(lái)自聽覺(jué),這兩個(gè)加起來(lái)就有94%。還有3.5%來(lái)自嗅覺(jué),1.5%來(lái)自觸覺(jué),1%來(lái)自味覺(jué)。而且他還做過(guò)另外一個(gè)實(shí)驗(yàn),就是關(guān)于知識(shí)保持即記憶持久性的實(shí)驗(yàn)。結(jié)果是:人們一般能記住自己閱讀內(nèi)容的10%,自己聽到內(nèi)容的20%,通過(guò)視覺(jué)和交流實(shí)踐獲得的記憶則高達(dá)80%。我們的眼睛看到的還會(huì)影響我們聽到的,這就是所謂的“麥格克效應(yīng)”。視覺(jué)動(dòng)物人類這種對(duì)視覺(jué)的偏愛,和依賴使得“一種視覺(jué)在場(chǎng)的形而上學(xué),一種可稱為‘視覺(jué)中心主義’(ocularcentrism)的傳統(tǒng)”在人類文化的長(zhǎng)河里順理成章地形成了。

但遺憾的是,機(jī)器視覺(jué)的感知能力和處理能力,一直發(fā)展緩慢,始終和人的視覺(jué)保持較遠(yuǎn)的差距。但隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等計(jì)算機(jī)算法的改進(jìn),以及以老黃的Nvidia為代表的GPU硬件能力的提升,使得機(jī)器視覺(jué)出現(xiàn)了革命性的進(jìn)步。并以日新月異的速度,給我們帶來(lái)驚喜。近些年機(jī)器視覺(jué)的進(jìn)步,計(jì)算機(jī)圖形處理技術(shù)的突飛猛擊,可以從每年舉行的ACM SIGGTRAPH的熱度,以及收獲的“喔”的數(shù)量上感知到在計(jì)算機(jī)視覺(jué)感知領(lǐng)域的前沿科技對(duì)時(shí)代的影響。

真正徹底改變這個(gè)行業(yè)的是2014年6月,當(dāng)時(shí)在谷歌大腦(Google Brain)的Ian Goodfellow及其同事設(shè)計(jì)的一個(gè)機(jī)器學(xué)習(xí)框架。生成對(duì)抗網(wǎng)絡(luò)一般由一個(gè)生成器(生成網(wǎng)絡(luò)),和一個(gè)判別器(判別網(wǎng)絡(luò))兩個(gè)神經(jīng)網(wǎng)絡(luò)組成。生成器的作用是,通過(guò)學(xué)習(xí)訓(xùn)練集數(shù)據(jù)的特征,在判別器的指導(dǎo)下,將隨機(jī)噪聲分布盡量擬合為訓(xùn)練數(shù)據(jù)的真實(shí)分布,從而生成具有訓(xùn)練集特征的相似數(shù)據(jù)。而判別器則負(fù)責(zé)區(qū)分輸入的數(shù)據(jù)是真實(shí)的還是生成器生成的假數(shù)據(jù),并反饋給生成器。兩個(gè)網(wǎng)絡(luò)交替訓(xùn)練,能力同步提高,以零和博弈的形式相互競(jìng)爭(zhēng),直到生成網(wǎng)絡(luò)生成的數(shù)據(jù)能夠以假亂真,并與與判別網(wǎng)絡(luò)的能力達(dá)到一定均衡。

第二年,一個(gè)來(lái)自于自非平衡態(tài)熱力學(xué)的擴(kuò)散模型(Diffusion Model),也被用在圖像處理領(lǐng)域,獲得了非常好的效果。擴(kuò)散模型是一種基于隨機(jī)過(guò)程的模型,它可以通過(guò)將噪聲向量逐步“擴(kuò)散”到圖像像素上,從而生成高質(zhì)量的圖像。這種模型的一個(gè)關(guān)鍵優(yōu)勢(shì)是,它可以通過(guò)自適應(yīng)地選擇擴(kuò)散步驟的數(shù)量來(lái)控制生成圖像的細(xì)節(jié)級(jí)別。此外,擴(kuò)散模型還可以用來(lái)生成高分辨率的圖像,而不像其他生成模型需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源。擴(kuò)散模型可以應(yīng)用于各種任務(wù),如圖像去噪、圖像修復(fù)、超分辨率成像、圖像生成等等。例如,一個(gè)圖像生成模型,經(jīng)過(guò)對(duì)自然圖像的擴(kuò)散過(guò)程的反轉(zhuǎn)訓(xùn)練之后,可從一張完全隨機(jī)的噪聲圖像開始逐步生成新的自然圖像。

在文本到圖像生成中,這兩種模型可以配合使用。Diffusion Model可以用來(lái)生成高質(zhì)量的圖像,而GANs則可以用來(lái)提高圖像的真實(shí)性和可信度。具體來(lái)說(shuō),Diffusion Model生成的圖像可以被作為GANs的輸入,然后GANs可以通過(guò)學(xué)習(xí)這些圖像的特征來(lái)生成更加逼真的圖像。這種方法可以有效地減少Diffusion Model中可能存在的一些缺陷,并產(chǎn)生更加自然和逼真的圖像。

也正是在這種大背景下,OpenAI才會(huì)首次推出的給大眾體驗(yàn)的產(chǎn)品才不是ChatGPT,而是DALL-E。這是首批引起公眾廣泛關(guān)注的文本到圖像模型之一,現(xiàn)在,我們體驗(yàn)對(duì)是能夠生成更復(fù)雜和逼真的圖像的后繼模型 DALL-E 2。如今,關(guān)于Text-to-Image的圖像生成器,已經(jīng)遍地開花,除了DALL-E之外,還有Midjourney、Stable Diffusion、Jasper Art、Starry AI、Dream by Wombo、Nightcafe、BigSleep、Artbreeder、Photosonic、Craiyon等等一系列眼花繚亂的圖像生成器,而且效果都不差。

相信,正是這些原因,老黃和Ilya在討論視覺(jué)信息的時(shí)候,才會(huì)如此興奮吧。

但是硬幣總有兩面,我們也無(wú)法忽視因?yàn)檫@兩個(gè)技術(shù)的采用,面臨的新的挑戰(zhàn):1. 生成圖片的數(shù)字版權(quán);2. 運(yùn)用此能力的深偽技術(shù)。我們恰巧有兩篇之前的文章覆蓋了這兩個(gè)話題,有興趣的同仁,可以點(diǎn)擊鏈接去看一下:

《HIT 11: AI生成的作品著作權(quán)歸屬探討》

《河套IT TALK——TALK43:(原創(chuàng))合成媒體的達(dá)摩克利斯之劍——深偽技術(shù)》

數(shù)字世界到底有多少可供大模型學(xué)習(xí)的信息?

在今天上面分享的這段對(duì)話中,有關(guān)一個(gè)人一生獲取的文字信息為10億個(gè)詞,這個(gè)話題Ilya和老黃還聊了不少內(nèi)容。這段內(nèi)容其實(shí)也會(huì)讓我們?nèi)ニ伎?,我們一生中接觸這么多字,那么互聯(lián)網(wǎng)上的信息有多少呢?

根據(jù)國(guó)際數(shù)據(jù)公司IDC的估計(jì),截至2020年,全球數(shù)字宇宙的大小為44 Zettabytes(其中1 Zettabyte等于10億 Terabytes),其中文本、圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了絕大部分。具體來(lái)說(shuō),據(jù)IDC估計(jì),非結(jié)構(gòu)化數(shù)據(jù)占據(jù)數(shù)字宇宙的80%以上,其中視頻數(shù)據(jù)占比最高,約為60%。據(jù)統(tǒng)計(jì),截至2020年,全球每天產(chǎn)生的文本數(shù)據(jù)量約為50萬(wàn)億字節(jié),這相當(dāng)于每天產(chǎn)生50億部普通手機(jī)的存儲(chǔ)容量;而每天上傳到Y(jié)ouTube的視頻數(shù)據(jù)量約為500小時(shí),相當(dāng)于每分鐘上傳約300小時(shí)的視頻。

這也映射了之前說(shuō)的,目前世界上大部分信息都是采用視頻和圖像來(lái)保存的。目前GPT-4等大模型,學(xué)習(xí)到的文本數(shù)據(jù)還是有限的。關(guān)于GPT-4學(xué)了多大當(dāng)量的數(shù)據(jù)并不清楚,但是GPT-3學(xué)了45TB的文本數(shù)據(jù)。主要來(lái)源于:

    • Common Crawl:提供了包含超過(guò)50億份網(wǎng)頁(yè)數(shù)據(jù)的免費(fèi)數(shù)據(jù)庫(kù)。有超過(guò)7年的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集,包含原始網(wǎng)頁(yè)數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。

    • Wikipedia:網(wǎng)絡(luò)維基百科,目前有超過(guò)1億的條目項(xiàng)。

    • BooksCorpus:由100萬(wàn)本英文電子書組成的語(yǔ)料庫(kù)。

    • WebText:一個(gè)來(lái)自于互聯(lián)網(wǎng)的語(yǔ)料庫(kù),其中包含了超過(guò)8億個(gè)網(wǎng)頁(yè)的文本內(nèi)容。

    • OpenWebText:類似于WebText,但是包含的文本數(shù)據(jù)更加規(guī)范化和質(zhì)量更高。

    • ConceptNet:一個(gè)用于語(yǔ)義網(wǎng)絡(luò)的數(shù)據(jù)庫(kù),其中包含大量的語(yǔ)言學(xué)知識(shí)。

    • NewsCrawl:從新聞網(wǎng)站收集的大量新聞文章的集合。

    • Reddit:一個(gè)包含了大量用戶發(fā)布的信息的論壇網(wǎng)站。

而這些數(shù)據(jù),也僅僅是互聯(lián)網(wǎng)上文本信息的一部分,當(dāng)然,可以認(rèn)為這也是高質(zhì)量數(shù)據(jù)的一部分。為什么不學(xué)習(xí)更多的數(shù)據(jù)?我的理解,這里有復(fù)雜的原因,既有數(shù)據(jù)的可獲得性考慮,還要有大模型訓(xùn)練的成本(包括計(jì)算成本和時(shí)間成本)的平衡。但未來(lái)的趨勢(shì),一定是學(xué)習(xí)更多的數(shù)據(jù),而且一定是多模態(tài),多種媒體形式數(shù)據(jù)的學(xué)習(xí)?,F(xiàn)在大模型的訓(xùn)練,已經(jīng)變成了一種新的熱潮,很多企業(yè)都開始擁抱大模型,也有很多在訓(xùn)練自己的大模型。Amazon和Texas A&M university 研究團(tuán)隊(duì)構(gòu)建的現(xiàn)代LLM進(jìn)化樹,展示了其中部分企業(yè)的最新進(jìn)展,有興趣可以看一下:

a62ca76a-e7d0-11ed-ab56-dac502259ad0.png

不同媒體形式數(shù)據(jù)Token的差別是什么?

在大模型的機(jī)器學(xué)習(xí)中,token是指在信息數(shù)據(jù)處理中的最小單位,如果是文本信息的話,通常是單詞或者子單詞。在自然語(yǔ)言處理任務(wù)中,一個(gè)token可以是一個(gè)單詞,也可以是一個(gè)詞根、一個(gè)詞綴或一個(gè)字符,這取決于數(shù)據(jù)預(yù)處理的方式和任務(wù)的需要。

在文本數(shù)據(jù)的預(yù)處理中,一個(gè)常見的步驟是將原始文本拆分成一個(gè)個(gè)token,這個(gè)過(guò)程稱為tokenization。在深度學(xué)習(xí)模型中,tokenization通常是將文本轉(zhuǎn)換為數(shù)字表示的第一步。每個(gè)token都被賦予一個(gè)唯一的整數(shù)編號(hào),這個(gè)編號(hào)會(huì)作為模型輸入中的一個(gè)特征向量的一部分。

在大模型的機(jī)器學(xué)習(xí)中,tokens的處理通常涉及到詞表、嵌入矩陣等概念。這些概念都是為了將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)字表示,以便于神經(jīng)網(wǎng)絡(luò)模型進(jìn)行計(jì)算和優(yōu)化。

中文的Token比英文的要復(fù)雜,因?yàn)橹形闹袥](méi)有明確的單詞邊界。

在英文中,單詞之間通常由空格或標(biāo)點(diǎn)符號(hào)分隔開,這使得單詞的tokenization變得相對(duì)簡(jiǎn)單。而在中文中,單詞之間沒(méi)有空格,相鄰的中文字符也不一定組成一個(gè)單詞。因此,中文的tokenization通常需要使用一些特定的技術(shù)來(lái)處理這種情況。

一種常見的中文tokenization技術(shù)是基于中文分詞。中文分詞是將中文文本切分成一個(gè)個(gè)有意義的詞語(yǔ)的過(guò)程。這個(gè)過(guò)程通常會(huì)用到一些預(yù)先訓(xùn)練好的分詞器或字典,通過(guò)匹配字典中的詞語(yǔ)或者使用統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)。

此外,在中文的tokenization中,還需要注意一些漢字之間可能存在的合并或拆分現(xiàn)象,以及不同語(yǔ)境下同一漢字可能表示不同的含義的情況。這些因素都需要考慮到,以保證中文文本的正確切分和tokenization。

除了文字之外,其他的信息,同樣在學(xué)習(xí)前,也是要tokenization技術(shù)處理的。以下是對(duì)于不同類型數(shù)據(jù)的token解釋:

    • 音頻:在音頻處理中,token通常是指音頻信號(hào)的采樣值,即將一段時(shí)間內(nèi)的聲音信號(hào)離散化為一系列數(shù)字。這些數(shù)字被用于表示音頻信號(hào),并可以作為神經(jīng)網(wǎng)絡(luò)模型的輸入。另外,音頻的tokenization也可以基于聲音的頻率和時(shí)域信息,通過(guò)一些特征提取算法來(lái)實(shí)現(xiàn)。

    • 圖像:在圖像處理中,token通常是指圖像的像素值。像素是構(gòu)成數(shù)字圖像的最小單位,每個(gè)像素都有一個(gè)數(shù)值,代表該像素的顏色和亮度等信息。這些像素值被用于表示圖像,并可以作為神經(jīng)網(wǎng)絡(luò)模型的輸入。此外,也可以對(duì)圖像進(jìn)行特征提取,例如使用卷積神經(jīng)網(wǎng)絡(luò)等算法來(lái)提取圖像的特征。

    • 視頻:在視頻處理中,token通常是指視頻中的一幀圖像。視頻由一系列連續(xù)的圖像組成,每個(gè)圖像都可以作為一個(gè)token。此外,還可以對(duì)視頻進(jìn)行特征提取,例如使用卷積神經(jīng)網(wǎng)絡(luò)等算法來(lái)提取視頻的空間和時(shí)間特征。

對(duì)于非文本數(shù)據(jù),例如圖像和音頻數(shù)據(jù),如果直接將其全部進(jìn)行tokenization,將會(huì)導(dǎo)致數(shù)據(jù)的體積變得非常大,并且可能丟失數(shù)據(jù)的一些關(guān)鍵信息。因此,在處理這些非文本數(shù)據(jù)時(shí),可能需要使用一些特定的處理方法和特征提取技術(shù),而不是直接進(jìn)行tokenization。

支持AIGC的語(yǔ)音聊天機(jī)器人

今天分享的這段對(duì)話中,老黃和Ilya簡(jiǎn)單提到了語(yǔ)音語(yǔ)調(diào)在大模型識(shí)別和生成的重要性。其實(shí)這挺關(guān)鍵的,想到過(guò)去幾年,非?;鸬闹悄苷Z(yǔ)音技術(shù)。真正的體驗(yàn)是非常不好的,不僅僅需要每次溝通都要提示詞,而且對(duì)包括方言等非標(biāo)準(zhǔn)語(yǔ)言的理解力很差,更不要說(shuō)去理解語(yǔ)氣語(yǔ)調(diào)了。而且,回答問(wèn)題的方式也千篇一律,給人的感覺(jué)就是并不夠智能。大部分的使用場(chǎng)景成了問(wèn)天氣,設(shè)鬧鐘,放歌和智能家電開關(guān)等簡(jiǎn)單用途上了。

a658c05c-e7d0-11ed-ab56-dac502259ad0.png

未來(lái),這些基于語(yǔ)音的交互智能家庭助手也應(yīng)該支持類似ChatGPT的能力。ChatGPT能夠?qū)崿F(xiàn)對(duì)復(fù)雜的自然語(yǔ)言理解和生成任務(wù)的處理,而這些任務(wù)也可以應(yīng)用到基于語(yǔ)音的交互智能家庭助手中。例如,基于語(yǔ)音的交互智能家庭助手可以使用ChatGPT來(lái)實(shí)現(xiàn)更加自然、流暢的對(duì)話和問(wèn)答。同時(shí),ChatGPT還可以通過(guò)對(duì)大量語(yǔ)音和文本數(shù)據(jù)的學(xué)習(xí),提高基于語(yǔ)音的交互智能家庭助手的語(yǔ)音識(shí)別和自然語(yǔ)言處理能力。再也不用擔(dān)心自己說(shuō)的話不標(biāo)準(zhǔn),AI不響應(yīng)了,可以慢慢聊,逐漸趨近于業(yè)務(wù)需求,而且也不用刻意遵守什么AI對(duì)話語(yǔ)言規(guī)則,所謂的換了一種說(shuō)話方式,AI就聽不懂的情況。甚至更神奇的將是,你說(shuō)什么語(yǔ)言,AI就會(huì)按照什么語(yǔ)言來(lái)回應(yīng)。比如你說(shuō)方言,它就方言回應(yīng),你說(shuō)英語(yǔ),它就英語(yǔ)回應(yīng)。要多自然,有多自然。

不過(guò),我們還是要意識(shí)到,AIGC的語(yǔ)音聊天機(jī)器人,必然面臨新的挑戰(zhàn):

    • 數(shù)據(jù)體積:音頻數(shù)據(jù)通常比文本和圖像數(shù)據(jù)更大,因此需要更多的存儲(chǔ)空間和處理能力。對(duì)于大規(guī)模音頻數(shù)據(jù)的處理,需要使用高效的計(jì)算和存儲(chǔ)方案。

    • 數(shù)據(jù)預(yù)處理:音頻數(shù)據(jù)需要進(jìn)行預(yù)處理,以便于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推斷。預(yù)處理包括提取特征、標(biāo)準(zhǔn)化和降噪等步驟。不同的預(yù)處理方法可能會(huì)影響模型的性能和效果。

    • 噪聲和變異性:音頻數(shù)據(jù)通常會(huì)受到噪聲和變異性的影響,例如不同的說(shuō)話者、語(yǔ)氣和背景噪聲等。這些噪聲和變異性可能會(huì)影響模型的精度和魯棒性,需要使用合適的預(yù)處理方法和模型設(shè)計(jì)來(lái)處理。

    • 音頻模型的設(shè)計(jì):對(duì)于不同的音頻任務(wù),需要使用不同的模型結(jié)構(gòu)和訓(xùn)練方法。例如,對(duì)于語(yǔ)音識(shí)別任務(wù),可以使用基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的模型,而對(duì)于語(yǔ)音合成任務(wù),可以使用基于生成對(duì)抗網(wǎng)絡(luò)和自注意力機(jī)制的模型。

    • 訓(xùn)練數(shù)據(jù)和標(biāo)注:音頻數(shù)據(jù)需要進(jìn)行標(biāo)注,以便于模型的訓(xùn)練和評(píng)估。對(duì)于語(yǔ)音識(shí)別任務(wù),需要進(jìn)行音素或字級(jí)別的標(biāo)注,而對(duì)于語(yǔ)音合成任務(wù),則需要進(jìn)行音高、音調(diào)和語(yǔ)速等方面的標(biāo)注。標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量會(huì)影響模型的性能和效果。

不過(guò),我有信心,隨著時(shí)間的推移,以上挑戰(zhàn)終將不是問(wèn)題。隨著人工智能技術(shù)的不斷發(fā)展和普及,基于語(yǔ)音的交互智能家庭助手會(huì)不斷地提高自己的能力,以更好地服務(wù)用戶,而且在和人的語(yǔ)音對(duì)話過(guò)程中,也是自我學(xué)習(xí)提升改進(jìn)的過(guò)程(也就是通過(guò)每次溝通訓(xùn)練對(duì)任務(wù)的理解和表達(dá)能力,形成記憶,自主成長(zhǎng))。在未來(lái),基于語(yǔ)音的交互智能家庭助手可能還會(huì)采用更加先進(jìn)的技術(shù)和算法,例如端到端的語(yǔ)音識(shí)別和合成技術(shù)、基于深度強(qiáng)化學(xué)習(xí)的對(duì)話生成技術(shù)等,以提供更加智能化、個(gè)性化的服務(wù)。相信,不遠(yuǎn)的將來(lái),能更為自然和人聊天的語(yǔ)音機(jī)器人會(huì)很快上市。

更加值得期待的多媒體交互

老黃和Ilya今天分享談話的最后,Ilya談到了對(duì)多模態(tài)的暢想。

支持多模態(tài)輸出對(duì)ChatGPT對(duì)信息的回復(fù),也不會(huì)簡(jiǎn)單局限在“蹦字兒狀態(tài)了比如如果我們?cè)诓宛^見到一個(gè)菜超級(jí)好吃,就把它拍下來(lái),輸入給ChatGPT。ChatGPT除了回復(fù)正常做菜的選料,預(yù)處理,烹飪的文本描述之外,每樣原材料、預(yù)處理的手法,以及烹調(diào)的順序和詳細(xì)過(guò)程,還會(huì)有圖片、視頻相對(duì)應(yīng),避免理解錯(cuò)誤。當(dāng)然,這只是理想場(chǎng)景,現(xiàn)實(shí)場(chǎng)景,多模態(tài)輸出未必如此賞心悅目。

一般來(lái)說(shuō),選擇合適的模態(tài)輸出需要考慮以下幾個(gè)方面:

    • 信息的類型和內(nèi)容:不同類型和內(nèi)容的信息適合使用不同的模態(tài)輸出。例如,當(dāng)需要傳達(dá)具體的操作步驟或指示時(shí),使用語(yǔ)音或視頻等模態(tài)輸出會(huì)更為直觀和有效;而當(dāng)需要傳達(dá)大量的文本信息時(shí),使用文字輸出會(huì)更為方便和快速。

    • 用戶的偏好和需求:不同的用戶有不同的偏好和需求,因此需要根據(jù)用戶的特點(diǎn)選擇合適的模態(tài)輸出。例如,當(dāng)用戶更喜歡通過(guò)聽覺(jué)方式獲取信息時(shí),使用語(yǔ)音輸出會(huì)更為合適;而當(dāng)用戶更喜歡通過(guò)視覺(jué)方式獲取信息時(shí),使用圖像或視頻輸出會(huì)更為合適。

    • 應(yīng)用場(chǎng)景和環(huán)境:不同的應(yīng)用場(chǎng)景和環(huán)境對(duì)模態(tài)輸出的要求也不同。例如,在嘈雜的環(huán)境中,使用語(yǔ)音輸出可能會(huì)受到干擾,此時(shí)可以選擇使用圖像或文字等其他模態(tài)輸出;而在需要快速操作的場(chǎng)景中,使用語(yǔ)音輸出可能更為方便。

需要注意的是,如果同時(shí)使用多個(gè)模態(tài)輸出來(lái)展示信息,可能會(huì)導(dǎo)致信息輸入的瓶頸或信息擁塞,從而降低溝通效果。因此,在選擇模態(tài)輸出時(shí),需要根據(jù)具體情況綜合考慮,選擇最為合適的模態(tài)輸出方式,以提高信息傳達(dá)的效率和準(zhǔn)確性。

在多模態(tài)輸出的場(chǎng)景中,如何選擇合適的模態(tài)輸出是一個(gè)需要考慮的問(wèn)題。選擇合適的模態(tài)輸出,可以提高信息傳達(dá)的效率和準(zhǔn)確性,并且可以改善用戶體驗(yàn)。

a666ba2c-e7d0-11ed-ab56-dac502259ad0.png

因?yàn)闄C(jī)器或許在信息處理和輸出方面,速度可以靈活調(diào)整。但人類的注意力通道無(wú)法承載過(guò)多的信息輸入。人類注意力的帶寬是極為有限的,而且生物進(jìn)化的緩慢速度相比于設(shè)備的增長(zhǎng)、處理能力的提升幾乎可以被定性為停滯不前。如果一味追求多媒體的輸出,用戶會(huì)被淹沒(méi)在各種多媒體信息的海洋中中應(yīng)接不暇、無(wú)所適從。因?yàn)樽⒁饬Ρ桓鞣N多媒體透支占用,我們從之前的從容處理任務(wù),逐漸過(guò)渡到被高負(fù)荷信息壓得喘不過(guò)氣的時(shí)代。所以,在合適的時(shí)機(jī),合適的場(chǎng)景,針對(duì)合適的人,以合適的模態(tài)進(jìn)行溝通,不去過(guò)多耗費(fèi)用戶的注意力,快速處理完事情后用戶應(yīng)立即撤回注意力做別的事情。才是最好的溝通策略。從我以前對(duì)多模態(tài)交互的理解,這個(gè)叫做平靜交互原則。

在探討AI技術(shù)決定論的前提下,注重體驗(yàn)仍然是非常關(guān)鍵的因素。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

好了,今天我們先解讀到這里。下次,我們會(huì)繼續(xù)針對(duì)黃仁勛與Ilya Sutskever的“爐邊談話”的其他部分進(jìn)行解讀,敬請(qǐng)期待。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

未完待續(xù)……


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8757
  • OpenHarmony
    +關(guān)注

    關(guān)注

    33

    文章

    3961

    瀏覽量

    21209

原文標(biāo)題:河套IT TALK 76: (原創(chuàng)) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態(tài)的ChatGPT(萬(wàn)字長(zhǎng)文)

文章出處:【微信號(hào):開源技術(shù)服務(wù)中心,微信公眾號(hào):共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來(lái)發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng),是融合
    的頭像 發(fā)表于 12-29 11:27 ?347次閱讀

    沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V模態(tài)大模型

    12月8日智譜AI發(fā)布并開源 GLM-4.6V 系列模態(tài)大模型,沐曦股份曦云C系列GPU完成Day 0適配。
    的頭像 發(fā)表于 12-17 14:28 ?668次閱讀
    沐曦股份曦云C<b class='flag-5'>系列</b>GPU Day 0適配智譜GLM-4.6V<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)模型奠定了新一代架構(gòu)的基石。
    的頭像 發(fā)表于 12-08 11:19 ?1071次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型架構(gòu)NEO

    李飛飛萬(wàn)字長(zhǎng)文:空間智能是AI的下一個(gè)十年

    1950年,當(dāng)計(jì)算機(jī)不過(guò)是自動(dòng)化算術(shù)和簡(jiǎn)單邏輯的代名詞時(shí),艾倫·圖靈提出了一個(gè)至今仍有回響的問(wèn)題:機(jī)器能思考嗎?他以非凡
    的頭像 發(fā)表于 11-19 21:20 ?1131次閱讀
    李飛飛<b class='flag-5'>萬(wàn)字長(zhǎng)文</b>:空間智能是AI的下一個(gè)十年

    萬(wàn)字長(zhǎng)文AI智能體:17種體架構(gòu)詳細(xì)實(shí)現(xiàn)

    數(shù)據(jù)科學(xué)AI智能體領(lǐng)域發(fā)展迅猛,但許多資源仍然過(guò)于抽象和理論化。創(chuàng)建此項(xiàng)目的目的是為開發(fā)者、研究人員和AI愛好者提供一條結(jié)構(gòu)化、實(shí)用且深入的學(xué)習(xí)路徑,以掌握構(gòu)建智能系統(tǒng)的藝術(shù)。
    的頭像 發(fā)表于 11-07 13:16 ?616次閱讀
    <b class='flag-5'>萬(wàn)字長(zhǎng)文</b>AI智能體:17種體架構(gòu)詳細(xì)實(shí)現(xiàn)

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個(gè)通過(guò)單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?308次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    Redis Sentinel和Cluster模式如何選擇

    在我十年的運(yùn)維生涯中,見過(guò)太多團(tuán)隊(duì)在Redis集群方案選擇上踩坑。有的團(tuán)隊(duì)盲目追求"高大上"的Cluster模式,結(jié)果運(yùn)維復(fù)雜度爆表;有的團(tuán)隊(duì)死守Sentinel不放,最后擴(kuò)展性成了瓶頸。今天,我想通過(guò)這篇萬(wàn)字長(zhǎng)文,把我在生產(chǎn)環(huán)境中積累的經(jīng)驗(yàn)全部分享給你。
    的頭像 發(fā)表于 09-08 09:31 ?640次閱讀

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    “看圖說(shuō)話+語(yǔ)音問(wèn)答”的融合交互。 、結(jié)論與未來(lái)發(fā)展方向如果說(shuō) “大模型上云” 是 AI 的 “星辰大?!?,那么 “模態(tài)落地端側(cè)” 就是 AI 的 “柴米油鹽”—— 后者決定了智能技術(shù)能否真正
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2499次閱讀

    3萬(wàn)字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語(yǔ)言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問(wèn)題,筆者基于過(guò)往工程經(jīng)驗(yàn)繼續(xù)追本溯源,與騰訊學(xué)堂合作撰寫本文,嘗試讓人人都能懂大語(yǔ)言模型的基礎(chǔ)原理。1、大語(yǔ)言模型簡(jiǎn)述截止到2025年“大模型”一般泛指“超大參數(shù)模型”,參數(shù)是指深度神經(jīng)
    的頭像 發(fā)表于 09-02 13:34 ?3524次閱讀
    3<b class='flag-5'>萬(wàn)字長(zhǎng)文</b>!深度解析大語(yǔ)言模型LLM原理

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1230次閱讀

    萬(wàn)字長(zhǎng)文】物聯(lián)網(wǎng)的激蕩二十年

    2005年11月,在突尼斯舉辦的信息社會(huì)世界峰會(huì)(WSIS)上,國(guó)際電信聯(lián)盟(ITU)發(fā)布了一份名為《ITU互聯(lián)網(wǎng)報(bào)告2005:物聯(lián)網(wǎng)》,正式向世人展示了什么是“物聯(lián)網(wǎng)(InternetofThings)”。雖然業(yè)界一致認(rèn)為,1999年,麻省理工學(xué)院的KevinAshton首次提出”物聯(lián)網(wǎng)”這一術(shù)語(yǔ),但僅僅只是一個(gè)理念,沒(méi)有成體系的解釋,也無(wú)法形成共識(shí)。而I
    的頭像 發(fā)表于 06-27 13:42 ?1646次閱讀
    【<b class='flag-5'>萬(wàn)字長(zhǎng)文</b>】物聯(lián)網(wǎng)的激蕩二十年

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?693次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    愛芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)大模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們?cè)诙藗?cè)模態(tài)大模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開源的模態(tài)大模MiniCPM V 2.0,上海人工智能實(shí)驗(yàn)室的書生
    的頭像 發(fā)表于 04-21 10:56 ?3287次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    全面解析新概念模擬電路(建議下載!)

    全文共冊(cè),近50萬(wàn)字,一樣的風(fēng)趣幽默,一樣的social化語(yǔ)言,深入淺出地將枯燥深?yuàn)W的模電知識(shí)講得簡(jiǎn)單易學(xué)。 《新概念模擬電路》內(nèi)容包含了《晶體管》、《負(fù)反饋和運(yùn)算放大器》、《運(yùn)放電路的頻率特性
    發(fā)表于 04-16 13:37