91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊發(fā)布開源MoE大語(yǔ)言模型Hunyuan-Large

科技綠洲 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 作者:網(wǎng)絡(luò)整理 ? 2024-11-06 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,騰訊公司宣布成功推出業(yè)界領(lǐng)先的開源MoE(Mixture of Experts,專家混合)大語(yǔ)言模型——Hunyuan-Large。這款模型不僅在參數(shù)量上刷新了業(yè)界紀(jì)錄,更在效果上展現(xiàn)出了卓越的性能,標(biāo)志著騰訊在自然語(yǔ)言處理領(lǐng)域邁出了重要的一步。

據(jù)了解,Hunyuan-Large的總參數(shù)量高達(dá)389B(即3890億),這一數(shù)字遠(yuǎn)超當(dāng)前許多主流的大語(yǔ)言模型。而其激活參數(shù)也達(dá)到了驚人的52B(即520億),這意味著模型在處理復(fù)雜任務(wù)時(shí)能夠展現(xiàn)出更強(qiáng)的學(xué)習(xí)能力和泛化性能。

除了參數(shù)量上的優(yōu)勢(shì),Hunyuan-Large在訓(xùn)練數(shù)據(jù)上也下足了功夫。據(jù)悉,該模型訓(xùn)練時(shí)所使用的token數(shù)量達(dá)到了7T(即7萬(wàn)億),這確保了模型能夠充分學(xué)習(xí)到語(yǔ)言的多樣性和復(fù)雜性。同時(shí),Hunyuan-Large還支持最大上下文長(zhǎng)度為256K的文本輸入,這一特性使得模型在處理長(zhǎng)文本或?qū)υ拡?chǎng)景時(shí)能夠更準(zhǔn)確地捕捉上下文信息,從而生成更加連貫和自然的回復(fù)。

騰訊此次推出的Hunyuan-Large大語(yǔ)言模型,不僅展示了其在人工智能領(lǐng)域的深厚技術(shù)積累,也為整個(gè)自然語(yǔ)言處理領(lǐng)域的發(fā)展注入了新的活力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265400
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1684

    瀏覽量

    50919
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11316
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13989
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    DeepSeek開源Engram:讓大模型擁有"過(guò)目不忘"的類腦記憶

    of Sparsity for Large Language Models》,并同步開源記憶模塊Engram。這一機(jī)制通過(guò)可擴(kuò)展查找結(jié)構(gòu),讓大模型實(shí)現(xiàn)O(1)時(shí)間復(fù)雜度的"條件反射式"記憶檢索,被業(yè)界視為破解
    的頭像 發(fā)表于 01-14 16:07 ?292次閱讀
    DeepSeek<b class='flag-5'>開源</b>Engram:讓大<b class='flag-5'>模型</b>擁有&quot;過(guò)目不忘&quot;的類腦記憶

    今日看點(diǎn):小米正式發(fā)布開源模型 MiMo-V2-Flash;磷酸鐵鋰開啟漲價(jià)潮

    小米正式發(fā)布開源模型 MiMo-V2-Flash 近日小米正式發(fā)布開源模型 MiMo-V
    的頭像 發(fā)表于 12-17 09:42 ?4213次閱讀

    NVIDIA Grace Blackwell平臺(tái)實(shí)現(xiàn)MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家 (MoE) 模型架構(gòu),這種架構(gòu)旨在模擬人腦的高效運(yùn)作機(jī)制。
    的頭像 發(fā)表于 12-13 09:23 ?891次閱讀
    NVIDIA Grace Blackwell平臺(tái)實(shí)現(xiàn)<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語(yǔ)言模型

    為助力打造實(shí)時(shí)、動(dòng)態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語(yǔ)言模型(SLM),可實(shí)現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1229次閱讀

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwe
    的頭像 發(fā)表于 09-06 15:21 ?1234次閱讀
    大規(guī)模專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計(jì)

    3萬(wàn)字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語(yǔ)言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問(wèn)題,筆者基于過(guò)往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3455次閱讀
    3萬(wàn)字長(zhǎng)文!深度解析大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>LLM原理

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】基于MOE混合專家模型的學(xué)習(xí)和思考-2

    )# [batch] return weighted_mse.mean()# 批次平均 在 MoE 模型中使用 class MoE(nn.Module): def __init__(self
    發(fā)表于 08-23 17:00

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語(yǔ)言
    的頭像 發(fā)表于 08-12 15:19 ?4271次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    Arm率先適配騰訊混元開源模型,助力端側(cè)AI創(chuàng)新開發(fā)

    本周初,騰訊混元宣布開源四款小尺寸模型(參數(shù)分別為 0.5B、1.8B、4B、7B),可無(wú)縫運(yùn)行于消費(fèi)級(jí)顯卡上。作為全球應(yīng)用范圍最為廣泛的計(jì)算平臺(tái),Arm 在開源首日就已率先實(shí)現(xiàn)適配,
    的頭像 發(fā)表于 08-08 09:16 ?1391次閱讀
    Arm率先適配<b class='flag-5'>騰訊</b>混元<b class='flag-5'>開源</b><b class='flag-5'>模型</b>,助力端側(cè)AI創(chuàng)新開發(fā)

    硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    今日,騰訊正式發(fā)布新一代混元開源語(yǔ)言模型。英特爾憑借在人工智能領(lǐng)域的全棧技術(shù)布局,現(xiàn)已在英特爾? 酷睿? Ultra 平臺(tái)上完成針對(duì)該
    的頭像 發(fā)表于 08-07 14:42 ?1368次閱讀
    硬件與應(yīng)用同頻共振,英特爾Day 0適配<b class='flag-5'>騰訊</b><b class='flag-5'>開源</b>混元大<b class='flag-5'>模型</b>

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布了!我們做了一個(gè)開放
    的頭像 發(fā)表于 08-06 14:25 ?1029次閱讀

    華為宣布開源盤古7B稠密和72B混合專家模型

    電子發(fā)燒友網(wǎng)綜合報(bào)道 2025年6月30日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型及基于昇騰的模型
    的頭像 發(fā)表于 07-06 05:51 ?7412次閱讀

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合(MoE)架構(gòu)的大語(yǔ)言模型混元-A13B。同日,摩爾線程團(tuán)隊(duì)?wèi){借技術(shù)前瞻性,率先完成該
    的頭像 發(fā)表于 07-04 14:10 ?903次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國(guó),深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇騰的模型
    的頭像 發(fā)表于 06-30 11:19 ?1336次閱讀

    NVIDIA使用Qwen3系列模型的最佳實(shí)踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語(yǔ)言模型 (LLM) 通義千問(wèn) Qwen3,此次 Qwen3 開源
    的頭像 發(fā)表于 05-08 11:45 ?2991次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳實(shí)踐