91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌Gemini自曝用文心一言訓練,字節(jié)被OpenAI封號,大模型互薅羊毛是常態(tài)?

Felix分析 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:吳子鵬 ? 2023-12-20 09:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近兩天,原本就火熱的人工智能大模型再度被澆上了一桶油,話題熱度更勝從前。不過,這一次大家探討的并不是大模型前景和算力這些,而是大模型之間互薅羊毛的問題。根據(jù)微博知名博主@闌夕爆料,對谷歌Gemini進行測試時,如果用中文詢問Gemini的身份,其回答竟然是百度文心一言。


更讓人大跌眼鏡的是,測試人員可以使用“小愛同學”“小度”等提示詞喚醒Gemini。并且,Gemini還能夠告訴測試人員,自己是如何獲取到百度的訓練數(shù)據(jù)的。

wKgaomWCPZSARWi_AAqz1hoQeXg429.png
網(wǎng)傳對話場景

wKgZomWCPZyAdfAvAAdFcaCzsrM909.png
網(wǎng)傳對話場景


不過,此則消息應該是很快就引起了谷歌技術(shù)人員的關(guān)注,在消息曝光不久后,Gemini應對上述提示詞和問題的方式就發(fā)生了改變。通過“小愛同學”“小度”等提示詞無法再喚醒Gemini,且對于相關(guān)問題的闡述也發(fā)生了變化,顯然谷歌技術(shù)人員很快修復了一些bug。

谷歌Gemini飽受質(zhì)疑

當?shù)貢r間12月6日,谷歌宣布推出“最大、最強、最通用”的新大型語言模型Gemini,我們對此也進行了專門的報道。在發(fā)布會上谷歌聲稱,在32項廣泛使用的基準測試中,Gemini Ultra獲得了30個SOTA(State of the art,特指領(lǐng)先水平的大模型)。這也就意味著,Gemini 1.0版本在文本、代碼、音頻、圖像和視頻處理能力方面,以及推理、數(shù)學、代碼等方面都吊打GPT-4。

同時,在發(fā)布會上谷歌還展示了Gemini相關(guān)的能力。比如,Gemini可以非常高效地從數(shù)十萬份文件中獲取對科學家有用的數(shù)據(jù),并創(chuàng)建數(shù)據(jù)集;Gemini可以在世界上最受歡迎的編程語言(如Python、JavaC++和Go)中理解、解釋和生成高質(zhì)量的代碼。

不過,谷歌是通過視頻展示的Gemini的相關(guān)能力,而不是通過現(xiàn)場實操。于是乎,就在谷歌發(fā)布會的次日,有視頻制作人員質(zhì)疑稱,谷歌的演示視頻并不是實錄,而是剪輯的。隨后,谷歌在博客文章中解釋了多模態(tài)交互過程,并提到了視頻演示中的猜拳,谷歌承認,不同于視頻中對于猜拳手勢的快速反應,只有在向Gemini同時展示這三個手勢并提示其這是游戲時,Gemini才會得出猜拳游戲的結(jié)論。

wKgaomWCPayAPXQiAAQ_VvMV5QM780.png
圖源:谷歌博文


因此,現(xiàn)在很多人都認為谷歌夸大了Gemini的能力,只有使用靜態(tài)圖片和多段提示詞拼湊,Gemini才能夠顯示出多模態(tài)的能力,這和谷歌宣稱的實時多模態(tài)反應明顯是不相符的。

大模型之間互薅羊毛

除了性能質(zhì)疑之外,此次事件則揭露了大模型發(fā)展另一個規(guī)則——互薅羊毛。實際上,在Gemini自曝是百度文心一言之前,國內(nèi)字節(jié)跳動就發(fā)生了相關(guān)問題。

近日,有外媒報道稱,字節(jié)跳動在使用OpenAI技術(shù)開發(fā)自己的大語言模型,違反了OpenAI服務條款,導致賬戶被暫停。對此,字節(jié)跳動相關(guān)負責人向記者回應稱:今年年初,當技術(shù)團隊剛開始進行大模型的初期探索時,有部分工程師將GPT的API服務應用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。4月公司引入GPT API調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止。字節(jié)跳動稱,后續(xù)會嚴格遵守OpenAI的使用協(xié)議。

從Gemini調(diào)整之后的回復來看,其在訓練過程中確實使用了百度文心一言的訓練數(shù)據(jù),這其實也無可厚非。百度文心一言在中文理解及相關(guān)的多模態(tài)生成能力方面確實處于領(lǐng)先的位置,那么背后的原因定然是因為百度掌握著質(zhì)量相對更好的中文訓練數(shù)據(jù)集,因此其他大模型如果想要在中文對話方面取得進展,使用文心一言的訓練數(shù)據(jù)確實是最高效的方式。

另外,除了字節(jié)跳動,此前谷歌也被質(zhì)疑使用OpenAI數(shù)據(jù)來訓練Bard,最終谷歌的回應是Bard沒有使用ShareGPT或是ChatGPT的任何數(shù)據(jù)來進行訓練。另外,國內(nèi)也有很多公司被質(zhì)疑是采用OpenAI數(shù)據(jù)來完善自己的大模型。不過,這種行為大都見不得光,因此都被否認了。

為什么其他大模型頻傳借用OpenAI數(shù)據(jù)來訓練呢,重要原因在于GPT-4性能領(lǐng)先一個重要的原因就是數(shù)據(jù)集質(zhì)量更高。根據(jù)semianalysis發(fā)布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章,GPT-4是一個使用1.8萬億巨量參數(shù)訓練的模型框架,而GPT-3只有約1750億個參數(shù),另外GPT-4擁有16個專家模型,每個MLP專家大約有1110億個參數(shù)。這就是為什么在展示Gemini Ultra的MMLU訓練時,谷歌將“CoT@32”進行小字注釋,代表Gemini Ultra的MMLU測試使用了思維鏈提示技巧,嘗試了32次并從中選擇最好結(jié)果。與之對比,GPT-4無提示詞技巧給5個示例。就這樣,GPT-4的成績?yōu)?6.4%,依然高于Gemini Ultra的83.7%。

另外,OpenAI用13萬億的token訓出了GPT-4。因為沒有高質(zhì)量的token,這個數(shù)據(jù)集還包含了許多個epoch。

綜上所述,雖然GPT-4的訓練數(shù)據(jù)規(guī)模沒有官方說明,但是semianalysis文章可信度很高,這個規(guī)模比Gemini Ultra宣稱的萬億似乎更強,也不怪大家都想用GPT調(diào)優(yōu)自己的模型。

當然,每一個模型都有自己擅長的地方,尤其是那些垂直的行業(yè)模型,在行業(yè)數(shù)據(jù)方面肯定是優(yōu)于一般多模態(tài)大模型的,因此被薅羊毛的概率也很大,但是這大都不會被公開。

大模型數(shù)據(jù)集背后的產(chǎn)業(yè)鏈

為了讓GPT-4具有領(lǐng)先的性能,OpenAI的研發(fā)團隊在模型優(yōu)化、數(shù)據(jù)選擇和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。對于大模型來說,預訓練數(shù)據(jù)集是一個非常關(guān)鍵的元素,很大程度上決定了大模型最終的性能水平。

在這個大背景下,隨著大模型產(chǎn)業(yè)發(fā)展,訓練數(shù)據(jù)也逐漸成為一種產(chǎn)業(yè)。比如國內(nèi)的云測數(shù)據(jù),云測創(chuàng)立于2011年,是一家以人工智能技術(shù)驅(qū)動的企業(yè)服務平臺,為全球超過百萬的企業(yè)及開發(fā)者提供云測試服務、AI訓練數(shù)據(jù)服務、安全服務。該公司的云測數(shù)據(jù)入選“北京市人工智能行業(yè)賦能典型案例(2023)”,在垂直大模型訓練數(shù)據(jù)服務方面很有造詣。

再比如,海天瑞聲作為國內(nèi)領(lǐng)先基礎(chǔ)數(shù)據(jù)服務商,是國內(nèi)首家且是目前唯一一家A股上市的人工智能訓練數(shù)據(jù)服務企業(yè),為阿里巴巴、Meta、騰訊、百度、字節(jié)跳動等公司提供數(shù)據(jù)服務。

北京郵電大學科學技術(shù)研究院副院長曾雪云教授此前在受訪時表示,“互聯(lián)網(wǎng)上生成的這些數(shù)據(jù),它是非結(jié)構(gòu)化的數(shù)據(jù),也是非標準化的數(shù)據(jù)。這樣的數(shù)據(jù)就是一種原始的、比較雜亂的、沒有規(guī)范的數(shù)據(jù),它就需要在計算前進行顆粒度上的清洗,所以高質(zhì)量數(shù)據(jù)通常都有從非結(jié)構(gòu)化到結(jié)構(gòu)化這樣的一個加工過程?!?br />
“現(xiàn)在從對數(shù)據(jù)科學的研究、國家對數(shù)據(jù)的治理,到學術(shù)界對數(shù)據(jù)的研究、產(chǎn)業(yè)界對數(shù)據(jù)的利用都是一個藍海,都是一個剛開始的狀態(tài)?!痹┰平淌谔岬?。

當然不僅國內(nèi)關(guān)注到這一塊的產(chǎn)業(yè)價值,作為頭部企業(yè),OpenAI希望與機構(gòu)合作建立新的人工智能訓練數(shù)據(jù)集。OpenAI為此創(chuàng)立了“數(shù)據(jù)伙伴關(guān)系”(Data Partnerships)計劃,該計劃旨在與第三方機構(gòu)合作,建立用于人工智能模型訓練的公共和私有數(shù)據(jù)集。OpenAI 在一篇博文中表示,數(shù)據(jù)合作伙伴關(guān)系旨在“讓更多組織能夠幫助引導人工智能的未來”,并“從更有用的模型中獲益”。

結(jié)語

人工智能大模型其實是大數(shù)據(jù)時代的典型產(chǎn)物,那么也就無法脫離對大數(shù)據(jù)的依賴。大模型的火爆讓高質(zhì)量訓練數(shù)據(jù)成為高價值、緊俏的資源,而這些數(shù)據(jù)往往掌握在頭部企業(yè)手里,這就是為什么大模型企業(yè)之間互相會薅羊毛。不過,相較于互聯(lián)網(wǎng)海量的數(shù)據(jù),目前科技巨頭的訓練數(shù)據(jù)集還只是九牛一毛,如何從海量互聯(lián)網(wǎng)數(shù)據(jù)提取有價值的訓練數(shù)據(jù)集,已經(jīng)逐漸成為一個產(chǎn)業(yè)鏈。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111407
  • 字節(jié)跳動
    +關(guān)注

    關(guān)注

    0

    文章

    352

    瀏覽量

    10075
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10075
  • 文心一言
    +關(guān)注

    關(guān)注

    0

    文章

    134

    瀏覽量

    2176
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5186
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    谷歌AI霸主歸來!多線反擊OpenAI,開啟安卓Gemini時代

    電子發(fā)燒友網(wǎng)報道(/莫婷婷)北京時間5月21日,谷歌2025 Google I/O開發(fā)者大會正式召開,從其發(fā)布的新品來看,這可以說是場AI盛會。 在AI大模型方面,發(fā)布了
    的頭像 發(fā)表于 05-22 09:01 ?6643次閱讀
    <b class='flag-5'>谷歌</b>AI霸主歸來!多線反擊<b class='flag-5'>OpenAI</b>,開啟安卓<b class='flag-5'>Gemini</b>時代

    晶晨攜手谷歌,助力端側(cè)大模型Gemini的硬件落地

    電子發(fā)燒友網(wǎng)報道 在科技飛速發(fā)展的當下,端側(cè)智能技術(shù)正以前所未有的速度滲透到各個領(lǐng)域。1月28日,晶晨股份透露,公司與谷歌有著長達十余年的深度合作基礎(chǔ)。作為谷歌代端側(cè)AI硬件(整合Gemi
    的頭像 發(fā)表于 01-29 10:44 ?1304次閱讀

    百度模型5.0正式版上線

    今天,在百度Moment大會現(xiàn)場,模型5.0正式版上線。
    的頭像 發(fā)表于 01-23 16:48 ?1292次閱讀

    谷歌正式推出Gemini 3 Flash模型

    我們正式推出了 Gemini 3 Flash,這是以較低成本打造的高效前沿智能,成功地進步擴展了 Gemini 3 模型系列。
    的頭像 發(fā)表于 01-22 16:04 ?483次閱讀

    每年10億美元,蘋果與谷歌官宣合作,Gemini模型注入Siri

    該協(xié)議,下代蘋果基礎(chǔ)模型(Apple Foundation Models)將基于谷歌Gemini模型和云技術(shù)。 ? 蘋果:借
    的頭像 發(fā)表于 01-13 14:59 ?1553次閱讀

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實現(xiàn)任何創(chuàng)意。Gemini 3 Pro 基于最先進的推理技術(shù),與之前的版本相比,它在所有主要的 AI 基準測試中都取得了無與倫比的結(jié)果,尤其是在編程方
    的頭像 發(fā)表于 11-24 11:10 ?1224次閱讀
    <b class='flag-5'>谷歌</b>正式推出最新<b class='flag-5'>Gemini</b> 3 AI<b class='flag-5'>模型</b>

    谷歌Gemini 3模型開啟智能新紀元

    大約兩年前,我們開啟了 Gemini 時代,這是公司迄今為止投入最大的科研和產(chǎn)品項目之那時起,看到大家對它的喜愛程度,著實令人驚嘆?,F(xiàn)在,每月有 20 億用戶使用 AI 概覽 (AI
    的頭像 發(fā)表于 11-24 11:07 ?850次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 3<b class='flag-5'>模型</b>開啟智能新紀元

    寧暢與與百度模型展開深度技術(shù)合作

    與部署。 憑借覆蓋訓練、推理、微調(diào)全流程的AI?服務器產(chǎn)品矩陣,寧暢幫助企業(yè)在大模型時代鍵打通算力與應用“任督二脈”,顯著縮短模型落地周期。 在已啟動的深度技術(shù)合作中,雙方將基于
    的頭像 發(fā)表于 07-07 16:26 ?871次閱讀

    黑芝麻智能與模型技術(shù)合作升級

    近日,模型正式開源,黑芝麻智能即日起快速啟動與模型技術(shù)合作。
    的頭像 發(fā)表于 07-04 17:24 ?1328次閱讀
    黑芝麻智能與<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技術(shù)合作升級

    龍芯中科與心系列模型開展深度技術(shù)合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓練 模型
    的頭像 發(fā)表于 07-02 16:53 ?1351次閱讀

    兆芯率先展開心系列模型深度技術(shù)合作

    6月30日,百度正式開源模型4.5系列等10款模型,并實現(xiàn)預訓練權(quán)重和推理代碼的完全開源,兆芯率先與
    的頭像 發(fā)表于 07-01 10:49 ?972次閱讀

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    的人工智能模型均為純文本模型,新代的 Gemini 2.5 Pro、OpenAI o4 mini、馬斯克旗下 xAI 的 Grok-3 T
    的頭像 發(fā)表于 06-15 01:56 ?5962次閱讀
    “天才”!<b class='flag-5'>OpenAI</b> o3 成全球 IQ 最高的 AI 大<b class='flag-5'>模型</b>

    谷歌Gemini 2.5模型系列更新

    今年 3 月,我們發(fā)布了迄今為止最智能的模型 Gemini 2.5 Pro,兩周前,我們提前為您帶來了 I/O 更新,以便開發(fā)者構(gòu)建出色的網(wǎng)絡(luò)應用。
    的頭像 發(fā)表于 05-23 14:56 ?1219次閱讀

    如何賦能醫(yī)療AI大模型應用?

    引言ChatGPT掀起熱潮以來,眾多AI大模型如雨后春筍般涌現(xiàn),其中包括百度科技的一言、科大訊飛的訊飛星火、華為的盤古AI大
    的頭像 發(fā)表于 05-07 09:36 ?689次閱讀
    如何賦能醫(yī)療AI大<b class='flag-5'>模型</b>應用?

    科技云報到:AI Agent打了個響指,商業(yè)齒輪加速轉(zhuǎn)動

    科技云報到原創(chuàng) 3月16日,百度旗下文模型4.5和文模型X1正式發(fā)布。目前,兩款模型已在
    的頭像 發(fā)表于 03-18 18:06 ?983次閱讀