91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-17 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

4 月 17 日,國內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含兩款模型:

losoev 6.5:擁有萬億級別的參數(shù),可處理 200k tokens 的上下文長度;

losoev 6.5s:與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù),但效率更高,同樣支持 200k tokens 的上下文長度,且能夠在 1 秒鐘內(nèi)處理近 3 萬字的文本。

自今年 1 月份推出國內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來,MiniMax 通過優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實施并行訓(xùn)練策略等手段,在加速模型擴(kuò)展方面取得了顯著進(jìn)展。

在 200k token 的范圍內(nèi),官方對 losoev 6.5 進(jìn)行了業(yè)內(nèi)常見的“大海撈針”測試,即將一句與原文無關(guān)的句子插入長文本中,然后通過自然語言詢問模型,觀察其能否準(zhǔn)確識別出這句話。經(jīng)過 891 次測試,losoev 6.5 均能準(zhǔn)確回答問題。

losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品,如海螺 AI 和 MiniMax 開放平臺。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4786

    瀏覽量

    98231
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50151

    瀏覽量

    265945
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3772

    瀏覽量

    52169
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4158次閱讀
    深入解析NVIDIA Nemotron 3系列開放<b class='flag-5'>模型</b>

    NVIDIA Grace Blackwell平臺實現(xiàn)MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家 (MoE) 模型架構(gòu),這種
    的頭像 發(fā)表于 12-13 09:23 ?931次閱讀
    NVIDIA Grace Blackwell平臺實現(xiàn)<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    圖解AI核心技術(shù):大模型、RAG、智能體、MCP

    和使用AI。 大模型 Transformer vs. Mixture of Experts 混合專家 (MoE) 是一種流行的
    的頭像 發(fā)表于 10-21 09:48 ?805次閱讀
    圖解<b class='flag-5'>AI</b>核心技術(shù):大<b class='flag-5'>模型</b>、RAG、智能體、MCP

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    優(yōu)化計算資源并有效地適應(yīng)任務(wù)的復(fù)雜性。 顯著特征: MoE 模型的一個顯著特征是在管理大型數(shù)據(jù)集方面的靈活性較高,它能夠在計算效率小幅降低的情況下,將模型容量擴(kuò)大上千倍。稀疏門控混合
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    的時間縮短、效率提升的硬件架構(gòu)非常重要。因此存內(nèi)加速方案,X-Former應(yīng)運而生。它是一種混合存內(nèi)計算架構(gòu),結(jié)合了NVM和基于互補金屬氧化物半導(dǎo)體(CMOS)的處理元件。 架構(gòu)如下:
    發(fā)表于 09-12 17:30

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升
    的頭像 發(fā)表于 09-06 15:21 ?1288次閱讀
    大規(guī)模<b class='flag-5'>專家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】基于MOE混合專家模型的學(xué)習(xí)和思考-2

    時,它的權(quán)重就會增大,而當(dāng)它的誤差大于此加權(quán)平均值時,它的權(quán)重就會減小。所以,使用這種損失函數(shù)訓(xùn)練出來的模型,各專家網(wǎng)絡(luò)之間是競爭關(guān)系,而不是合作關(guān)系。正是這種“競爭上崗”的模式,形成了動態(tài)加載的效果
    發(fā)表于 08-23 17:00

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (
    的頭像 發(fā)表于 08-12 15:19 ?4346次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+混合專家

    邏輯,硬件性能的成本選擇,達(dá)到的效果, 最后是對人工智能的影響。 Deepseek在技術(shù)思路上,采用混合專家系統(tǒng)MoE架構(gòu)(思維模塊),MoE
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    數(shù)據(jù)中挖掘有價值信息,這也讓我意識到架構(gòu)設(shè)計對模型性能起著根本性作用,是 AI 具備強大能力的 “骨骼” 支撐。 二、流水線并行 書中關(guān)于流水線并行的內(nèi)容,展現(xiàn)了提升計算效率的巧妙思路。簡單流水線并行雖
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型
    發(fā)表于 07-17 11:59

    華為宣布開源盤古7B稠密和72B混合專家模型

    電子發(fā)燒友網(wǎng)綜合報道 2025年6月30日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型及基于昇
    的頭像 發(fā)表于 07-06 05:51 ?7478次閱讀

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合MoE架構(gòu)的大語言模型混元-A13B。同日,摩爾線程團(tuán)隊?wèi){借技術(shù)前瞻性,率先完成該
    的頭像 發(fā)表于 07-04 14:10 ?931次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇
    的頭像 發(fā)表于 06-30 11:19 ?1374次閱讀

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    套件2.0全面支持 DeepSeek四大關(guān)鍵技術(shù):混合專家模型MoE)、多Token預(yù)測(MTP)多頭潛在注意力(MLA)、FP8推理(FP8 Inferencing),實現(xiàn)Toke
    發(fā)表于 04-13 19:52