91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek發(fā)表重磅論文!推出NSA技術(shù),讓AI模型降本增效

章鷹觀察 ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-02-19 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發(fā)燒友報道 文/章鷹)2月18日,在馬斯克的xAI公司發(fā)布了Grok3大模型后,中國公司深度探索公司推出了用于超快速長文本訓(xùn)練訓(xùn)練與推理的“原生稀疏注意力”(Native Sparse Attention,簡稱 NSA)。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓(xùn)練的稀疏注意力機制,它將算法創(chuàng)新與硬件對齊的優(yōu)化相結(jié)合,以實現(xiàn)高效的長上下文建模?!?/p>

論文稱,NSA 在通用基準(zhǔn)檢驗、長文本任務(wù)和基于指令的推理中均能達到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

實驗顯示,NSA 不僅在通用任務(wù)和長上下文任務(wù)中表現(xiàn)出色,還在例如鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)強大的潛力,且推理速度加快。

在通用基準(zhǔn)檢驗、長文本處理以及基于指令的推理任務(wù)中,NSA 的表現(xiàn)均能達到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性價比極高的方式,罕見地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)練推理場景中顯著提升速度,特別是在譯碼階段實現(xiàn)高達 11.6 倍的提升。

透過高效的長序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro 已展示長上下文的潛力,NSA 能進一步降低這類模型的訓(xùn)練與推理成本。

在這篇名題為「原生稀疏注意力:硬件對齊且可原生訓(xùn)練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長田鋒表示,隨著全球人工智能競爭持續(xù)升溫,不同的公司在不同領(lǐng)域展示了競爭優(yōu)勢。據(jù)田鋒介紹,DeepSeek 開發(fā)的資源高效的開源模型在數(shù)學(xué)推理和軟件工程任務(wù)方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識和解決問題方面表現(xiàn)更佳。

我們看到,來自中國人工智能公司還展示了各種優(yōu)勢,包括競爭性能和成本效益。田鋒強調(diào):“通過利用替代數(shù)據(jù)源、開發(fā)自主技術(shù)以及促進國內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國人工智能公司能夠創(chuàng)造出不僅滿足國內(nèi)需求而且能夠提高全球競爭力的解決方案,”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來,DeepSeek首次發(fā)布的技術(shù)動態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    398

    瀏覽量

    998
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3249
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    千方集團持續(xù)推動公路貨運實現(xiàn)降本增效

    公路貨運作為我國物流體系的支柱,是推動全社會物流降本增效的關(guān)鍵領(lǐng)域。千方集團通過整合“車、路、貨、能、運”等關(guān)鍵要素資源,構(gòu)建了完整的產(chǎn)業(yè)生態(tài),并通過智能化升級與全局優(yōu)化,持續(xù)推動公路貨運實現(xiàn)降本增效。
    的頭像 發(fā)表于 01-26 10:18 ?460次閱讀

    ERP上云 = 降本增效?一文讀懂ERP云業(yè)務(wù)應(yīng)用&遷移核心優(yōu)勢

    云ERP企業(yè)轉(zhuǎn)型更輕盈:無需自建服務(wù)器,專業(yè)團隊保障數(shù)據(jù)安全,按需擴展隨業(yè)務(wù)增長。SNP的Kyano平臺提供一站式遷移方案,全球3000+企業(yè)驗證,助力快速實現(xiàn)降本增效與業(yè)務(wù)創(chuàng)新。
    的頭像 發(fā)表于 01-14 14:03 ?140次閱讀

    停車場照明煥新記:晶映節(jié)能改造的降本增效實踐?

    晶映節(jié)能停車場照明改造以技術(shù)創(chuàng)新破傳統(tǒng)困境,通過智能感應(yīng)與數(shù)字化管理,實現(xiàn)電費大降、維護成本銳減,同步提升安全與用戶體驗,彰顯降本增效深層價值。
    的頭像 發(fā)表于 08-21 16:18 ?761次閱讀
    停車場照明煥新記:晶映節(jié)能改造的<b class='flag-5'>降本增效</b>實踐?

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+混合專家

    -V3的版本區(qū)別, 深入了解Deepseek技術(shù)細(xì)節(jié),快速掌握大模型領(lǐng)域的前沿知識,洞察對行業(yè)應(yīng)用的影響,提升自身在該領(lǐng)域的專業(yè)水平和競爭力。 本書流程非常清晰,先認(rèn)識Deepseek
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    量化 細(xì)粒度量化的講解,我接觸到 AI 模型在精度和效率間尋求平衡的關(guān)鍵技術(shù)。不同量化方法,如 per tensor、per token 等,針對數(shù)據(jù)不同部分采用精細(xì)策略,就像給
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    實現(xiàn)三重超越;而對開源生態(tài)、技術(shù)趨勢的前瞻探討,則印證了DeepSeek“用開源擊穿技術(shù)壁壘”的初心。 當(dāng)DeepSeek-R1以60TPS的生成速度刷新認(rèn)知,當(dāng)蒸餾
    發(fā)表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    析和前瞻性的行業(yè)洞察,為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛好者提供了寶貴的學(xué)習(xí)資料。 本書目錄結(jié)構(gòu) 第1章介紹 DeepSeek 的一系列技術(shù)
    發(fā)表于 06-09 14:38

    IBM探索AI驅(qū)動的降本增效新路徑

    AI 驅(qū)動已成為企業(yè)降本增效的戰(zhàn)略級引擎,其價值實現(xiàn)不在于技術(shù)本身,而在于與業(yè)務(wù)場景的深度融合。IBM 咨詢提出的"戰(zhàn)略規(guī)劃+運營管理"雙軌并行模式,突破傳統(tǒng)單點優(yōu)化的局限,構(gòu)建
    的頭像 發(fā)表于 05-22 15:29 ?955次閱讀

    福田歐曼銀河5助力物流運輸行業(yè)降本增效

    在物流運輸行業(yè)競爭日趨白熱化的當(dāng)下,每一分成本削減與效率提升都直接關(guān)乎用戶的生存空間,而運輸效率與運營效益已成為檢驗重卡性能的核心指標(biāo)。面對行業(yè)降本增效的迫切需求,歐曼銀河5精準(zhǔn)錨定用戶痛點,從動
    的頭像 發(fā)表于 05-20 09:23 ?925次閱讀

    PLC遠(yuǎn)程維護上下載,降本增效減少出差的利器

    PLC(可編程邏輯控制器)遠(yuǎn)程維護上下載技術(shù)已成為現(xiàn)代工業(yè)領(lǐng)域降本增效、減少出差的核心工具,尤其在工業(yè)4.0與物聯(lián)網(wǎng)技術(shù)推動下,價值愈發(fā)凸顯。對此,數(shù)之能提供PLC遠(yuǎn)程編程調(diào)試和遠(yuǎn)程上下載程序等
    的頭像 發(fā)表于 05-19 11:17 ?591次閱讀
    PLC遠(yuǎn)程維護上下載,<b class='flag-5'>降本增效</b>減少出差的利器

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓(xùn)練樣本和訓(xùn)練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務(wù)器+多路安防監(jiān)控IPC,差異化AI視頻系統(tǒng), 成本控制極具市場競爭力。 海思SD3403邊緣計算
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    的端側(cè)部署,Token產(chǎn)生速度提升了40%,端側(cè)大模型擁有更高的計算效率和推理性能,使端側(cè)AI交互響應(yīng)更及時,用戶體驗更貼心。 聯(lián)發(fā)科還與vivo和全民K歌攜手,借助天璣AI人聲萃
    發(fā)表于 04-13 19:52

    科通技術(shù)推出DeepSeek+AI芯片全場景方案

    股份有限公司(以下簡稱“科通技術(shù)”)作為AI算力供應(yīng)鏈的核心供應(yīng)商,憑借深厚的技術(shù)積累與產(chǎn)業(yè)資源,推出DeepSeek
    的頭像 發(fā)表于 03-24 10:33 ?1271次閱讀

    鑫金暉亮相【2025年行家說LED顯示屏及MLED產(chǎn)業(yè)鏈峰會】賦能COB/LED自動化烘烤工藝改革-開啟降本增效的新引擎

    )作為行業(yè)智庫專家受邀出席發(fā)表《COB/LED智能自動化烘烤工藝改革降本增效的新引擎》主題分享。聚焦COB、LED烘烤工藝痛點與技術(shù)創(chuàng)新助力改革升級降本增效現(xiàn)場,鐘瑞
    的頭像 發(fā)表于 03-13 14:17 ?1018次閱讀
    鑫金暉亮相【2025年行家說LED顯示屏及MLED產(chǎn)業(yè)鏈峰會】賦能COB/LED自動化烘烤工藝改革-開啟<b class='flag-5'>降本增效</b>的新引擎