91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李開復4個多月后“放大招”:對標OpenAI、谷歌,發(fā)布“全球最強”開源大模型

jf_WZTOguxH ? 來源:AI前線 ? 2023-11-06 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,由李開復打造的 AI 大模型創(chuàng)業(yè)公司“零一萬物”發(fā)布了一系列開源大模型:Yi-34B 和 Yi-6B。

Yi-34B 是一個雙語(英語和中文)基礎(chǔ)模型,經(jīng)過 340 億個參數(shù)訓練,明顯小于 Falcon-180B 和 Meta LlaMa2-70B 等其他開放模型。在發(fā)布會中,李開復稱其數(shù)據(jù)采集、算法研究、團隊配置均為世界第一梯隊,對標 OpenAI、谷歌一線大廠,并抱有成為世界第一的初衷和決心。同時,他表示 Yi-34B 是“全球最強開源模型”,其通用能力、知識推理、閱讀理解等多指標均處于全球榜單首位。

零一萬物團隊也進行了一系列打榜測試,具體成績包括:

Hugging Face 英文測試榜單,以 70.72 分數(shù)位列全球第一;

以小博大,作為國產(chǎn)大模型碾壓 Llama-2 70B 和 Falcon-180B 等一眾大模型(參數(shù)量僅為后兩者的 1/2、1/5);

C-Eval 中文能力排行榜位居第一,超越了全球所有開源模型;

MMLU、BBH 等八大綜合能力表現(xiàn)全部勝出,Yi-34B 在通用能力、知識推理、閱讀理解等多項指標評比中“擊敗全球玩家”;

......

9f292822-7c62-11ee-939d-92fbcf53809c.jpg

9f458350-7c62-11ee-939d-92fbcf53809c.jpg

然而,在發(fā)布中,也有一點需要指出,那就是 Yi 系列模型在 GSM8k 和 MBPP 的數(shù)學以及代碼測評方面表現(xiàn)不如 GPT 模型出色。這是因為團隊希望在預訓練階段希望先盡可能保留模型的通用能力,所以訓練數(shù)據(jù)中沒有加入過多數(shù)學和代碼數(shù)據(jù)。后續(xù)他們計劃在開源系列中推出專注于代碼和數(shù)學領(lǐng)域的繼續(xù)訓練模型。

200K 上下文窗口, 能處理 40 萬字文本

值得注意的是,此次開源的 Yi-34B 模型,將發(fā)布全球最長、可支持 200K 超長上下文窗口(context window)版本,可以處理約 40 萬漢字超長文本輸入。這意味著 Yi-34B 不僅能提供更豐富的語義信息,理解超過 1000 頁的 PDF 文檔,還讓很多依賴于向量數(shù)據(jù)庫構(gòu)建外部知識庫的場景,都可以用上下文窗口來進行替代。

相比之下,OpenAI 的 GPT-4 上下文窗口只有 32K,文字處理量約 2.5 萬字。今年三月,硅谷知名 AI 2.0 創(chuàng)業(yè)公司 Anthropic 的 Claude2-100K 將上下文窗口擴展到了 100K 規(guī)模,零一萬物直接加倍,并且是第一家將超長上下文窗口在開源社區(qū)開放的大模型公司。

在語言模型中,上下文窗口是大模型綜合運算能力的金指標之一,對于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長窗口的語言模型可以處理更豐富的知識庫信息,生成更連貫、準確的文本。

此外,在文檔摘要、基于文檔的問答等下游任務(wù)中,長上下文的能力發(fā)揮著關(guān)鍵作用,行業(yè)應用場景廣闊。在法律、財務(wù)、傳媒、檔案整理等諸多垂直場景里,更準確、更連貫、速度更快的長文本窗口功能,可以成為人們更可靠的 AI 助理,讓生產(chǎn)力得到大幅提升。然而,受限于計算復雜度、數(shù)據(jù)完備度等問題,上下文窗口規(guī)模擴充從計算、內(nèi)存和通信的角度存在各種挑戰(zhàn),因此大多數(shù)發(fā)布的大型語言模型僅支持幾千 tokens 的上下文長度。為了解決這個限制,零一萬物技術(shù)團隊實施了一系列優(yōu)化,包括:計算通信重疊、序列并行、通信壓縮等。通過這些能力增強,實現(xiàn)了在大規(guī)模模型訓練中近 100 倍的能力提升。

實現(xiàn) 40% 訓練成本下降

AI Infra(AI Infrastructure 人工智能基礎(chǔ)架構(gòu)技術(shù))主要涵蓋大模型訓練和部署提供各種底層技術(shù)設(shè)施,包括處理器、操作系統(tǒng)、存儲系統(tǒng)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施、云計算平臺等等,是模型訓練背后極其關(guān)鍵的“保障技術(shù)”,這是大模型行業(yè)至今較少受到關(guān)注的硬技術(shù)領(lǐng)域。

李開復曾經(jīng)表示,“做過大模型 Infra 的人比做算法的人才更稀缺”,而超強的 Infra 能力是大模型研發(fā)的核心護城河之一。在芯片、GPU 等算力資源緊缺的當下,安全和穩(wěn)定成為大模型訓練的生命線。零一萬物的 Infra 技術(shù)通過“高精度”系統(tǒng)、彈性訓和接力訓等全棧式解決方案,確保訓練高效、安全地進行。

憑借其強大的 AI Infra 支撐,零一萬物團隊表示,Yi-34B 模型訓練成本實測下降 40%,實際訓練完成達標時間與預測的時間誤差不到一小時,進一步模擬上到千億規(guī)模訓練成本可下降多達 50%。截至目前,零一萬物 Infra 能力實現(xiàn)故障預測準確率超過 90%,故障提前發(fā)現(xiàn)率達到 99.9%,不需要人工參與的故障自愈率超過 95%,有力保障了模型訓練的順暢進行。

零一萬物背后

今年 7 月,李開復博士正式官宣并上線了其籌組的“AI 2.0”新公司:零一萬物。此前李開復曾表示,AI 大語言模型是中國不能錯過的歷史機遇,零一萬物就是在今年 3 月下旬,由他親自帶隊孵化的新品牌。

在接受外媒采訪時,他談到了創(chuàng)辦零一萬物的動機:“我認為需求是創(chuàng)新之母,中國顯然存在巨大的需求,”“與其他國際地區(qū)不同,中國無法訪問 OpenAI 和谷歌,因為這兩家公司沒有在中國提供他們的產(chǎn)品。因此,我認為有很多人正在努力為市場創(chuàng)造解決方案。這是剛需?!?/p>

眾所周知,構(gòu)建大模型是一項耗資巨大的事業(yè)。為了維持現(xiàn)金密集型業(yè)務(wù),零一萬物從一開始就制定了商業(yè)化計劃。雖然該公司將繼續(xù)開源其一些模型,但其目標是構(gòu)建最先進的專有模型,作為各種商業(yè)產(chǎn)品的基礎(chǔ)。

李開復表示,他們非常清楚這些大型語言模型需要大量計算,花費巨大?!拔覀兓I集到了大量資金,其中大部分都花在了 GPU 上?!迸c中國其他 LLM 玩家一樣,零一萬物也需要積極儲備 GPU 以應對美國制裁。在發(fā)布會中,李開復表示零一萬物現(xiàn)在的供應至少足以滿足未來 12-18 個月的需求。

美國的制裁也讓中國企業(yè)注重優(yōu)化計算能力,李開復表示:“借助一支非常高質(zhì)量的基礎(chǔ)設(shè)施團隊,每 1000 個 GPU,我們也許能夠從中擠出 2000 個 GPU 的工作負載?!?/p>

從一些報道中,我們可以了解到,零一萬物員工規(guī)模已超過 100 人,半數(shù)是來自國內(nèi)外大廠的 LLM 專家。其中,零一萬物技術(shù)副總裁及 AI Alignment 負責人是 Google Bard/Assistant 早期核心成員,主導或參與了從 Bert、LaMDA 到大模型在多輪對話、個人助理、AI Agent 等多個方向的研究和工程落地;首席架構(gòu)師曾在 Google Brain 與 Jeff Dean、Samy Bengio 等合作,為 TensorFlow 的核心創(chuàng)始成員之一。

零一萬物的商業(yè)化之路很大程度上取決于其為其昂貴的 AI 模型找到適合的產(chǎn)品市場的能力?!爸袊诖竽P头矫娌⒉活I(lǐng)先于美國,但毫無疑問,中國可以構(gòu)建比美國開發(fā)商更好的應用程序,這主要是因為過去 12 年左右建立的非凡的移動互聯(lián)網(wǎng)生態(tài)系統(tǒng),”李開復說道。

李開復表示,這家初創(chuàng)公司的最終目標是成為一個外部開發(fā)人員可以輕松構(gòu)建應用程序的生態(tài)系統(tǒng)?!拔覀兊穆氊煵粌H僅是推出好的研究模型,更重要的是讓應用程序開發(fā)變得容易,這樣才能有優(yōu)秀的應用程序,”他說?!皻w根結(jié)底。這是一場生態(tài)系統(tǒng)游戲?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11325
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10157
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3679

    瀏覽量

    5202

原文標題:李開復4個多月后“放大招”:對標OpenAI、谷歌,發(fā)布“全球最強”開源大模型

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    泰凌微:布局端側(cè)AI,產(chǎn)品支持谷歌LiteRT、TVM開源模型

    。 ? 公司發(fā)布的基于TL721X系列芯片的TL-EdgeAI平臺,支持谷歌LiteRT、TVM等開源模型,是目前世界上功耗最低的智能物聯(lián)網(wǎng)連接協(xié)議平臺。其芯片已在
    的頭像 發(fā)表于 12-15 08:21 ?1w次閱讀

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?726次閱讀

    谷歌發(fā)布最強自研TPU,性能比前代提升4

    精心設(shè)計,能夠輕松處理從大型模型訓練到實時聊天機器人運行以及AI智能體操作等各類復雜任務(wù)。 ? 谷歌在新聞稿中著重強調(diào),“Ironwood”是專為應對最嚴苛的工作負載而打造的。無論是大規(guī)模模型訓練、復雜的強化學習(RL),還是高
    的頭像 發(fā)表于 11-13 07:49 ?8660次閱讀
    <b class='flag-5'>谷歌</b>云<b class='flag-5'>發(fā)布</b><b class='flag-5'>最強</b>自研TPU,性能比前代提升<b class='flag-5'>4</b>倍

    華為發(fā)布全球最強算力超節(jié)點和集群

    在華為全聯(lián)接大會2025(HUAWEI CONNECT 2025)上,華為發(fā)布最強算力超節(jié)點和集群,并表示將發(fā)展生態(tài)作為公司核心戰(zhàn)略,提升到前所未有的戰(zhàn)略高度。在計算領(lǐng)域,鯤鵬昇騰堅持全面開源開放,攜手伙伴和開發(fā)者共建繁榮的鯤鵬
    的頭像 發(fā)表于 10-10 17:29 ?2287次閱讀

    OpenAI開源模型登陸IBM watsonx.ai開發(fā)平臺

    OpenAI 已向公眾發(fā)布了兩款 AI 模型,允許開發(fā)者和企業(yè)可自由下載、運行并進行定制。其中一款模型現(xiàn)已部署在 IBM watsonx.ai 開發(fā)平臺上。
    的頭像 發(fā)表于 08-26 15:36 ?1038次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1434次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型:gpt-oss-120b和gpt-oss-20b,性能與o4-m
    的頭像 發(fā)表于 08-13 16:43 ?1630次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)?b class='flag-5'>發(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的
    的頭像 發(fā)表于 08-07 14:13 ?1.3w次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實現(xiàn)將先進的開放權(quán)重模型全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上
    的頭像 發(fā)表于 08-06 19:29 ?874次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss
    的頭像 發(fā)表于 08-06 14:25 ?1047次閱讀

    擺脫依賴英偉達!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,據(jù)知情人士透露,OpenAI近期已開始租用谷歌的張量處理單元(TPU),為旗下ChatGPT等熱門產(chǎn)品提供算力支持。這一舉措不僅標志著OpenAI首次實質(zhì)性
    的頭像 發(fā)表于 07-02 00:59 ?8397次閱讀

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)根據(jù)門薩智商(IQ)測試中的表現(xiàn),OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首,在門薩測試中獲得了 135 的高分,躋身
    的頭像 發(fā)表于 06-15 01:56 ?6013次閱讀
    “天才”!<b class='flag-5'>OpenAI</b> o3 成<b class='flag-5'>全球</b> IQ 最高的 AI 大<b class='flag-5'>模型</b>

    DeepSeek開源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一個大招,DeepSeek開源了R1最新0528版本。盡管DeepSeek目前還沒有對該版本進行任何說明,但是根據(jù)著名代碼測試平臺Live CodeBench數(shù)據(jù)
    的頭像 發(fā)表于 05-29 11:23 ?1212次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量僅為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等
    的頭像 發(fā)表于 04-30 16:08 ?1357次閱讀

    低至¥2.27/h!就能使用全球最強開元模型——千問 QwQ-32B

    ABSTRACT摘要捷智算平臺上新全球最強開元模型——千問QwQ-32B。JAEALOT2025年3月18日3月17日,阿里通義千問發(fā)布的最新開源
    的頭像 發(fā)表于 03-19 12:34 ?1143次閱讀
    低至¥2.27/h!就能使用<b class='flag-5'>全球</b><b class='flag-5'>最強</b>開元<b class='flag-5'>模型</b>——千問 QwQ-32B