五十熟女岛国激情黄色五月天,黄片无码手机在线观看,青青草黄色AV电影免费

近日，沐曦PDE-AI Solution團隊與香港科技大學合作，在兩大人工智能頂級會議NeurIPS2025與EMNLP 2025上發(fā)表重要研究成果，涵蓋大語言模型（LLM）的多樣化解碼與高效訓練優(yōu)化方向，展現(xiàn)了中國企業(yè)在AI基礎研究領域的持續(xù)創(chuàng)新力。

頂會背景：AI研究的全球高地

關于NeurIPS

定位與聲譽：人工智能和機器學習領域的“天花板”級會議，與ICML并列為全球最頂尖的兩大會議。被工業(yè)界（如Google, Meta, OpenAI等）視為技術風向標。NeurIPS的論文錄用，是全球學術界與工業(yè)界評估機構與個人在人工智能基礎研究領域核心競爭力的黃金標準，是通往全球頂尖AI研究機構的關鍵履歷。

特點：非常注重論文的理論深度、算法創(chuàng)新和基礎性貢獻。涵蓋深度學習、強化學習、概率模型、計算機視覺、人工智能倫理等廣泛而核心的機器學習方向。

難度：歷年錄用率極低（通常在20%-25%左右），2025年投稿數(shù)20000+，競爭極為激烈。

關于EMNLP

定位與聲譽：自然語言處理領域的世界頂級會議之一，由國際計算語言學協(xié)會（ACL）主辦， NLP領域的三大頂會之一。在EMNLP上發(fā)表論文，是展現(xiàn)研究機構在自然語言處理領域具備世界級創(chuàng)新與應用能力的權威證明，已成為全球頭部科技公司及實驗室爭相吸納高端人才的重要依據(jù)。

特點：側重于具有堅實實證基礎的自然語言處理研究，強調通過實驗和數(shù)據(jù)分析來驗證新方法、新模型的有效性。覆蓋機器翻譯、文本生成、信息抽取、情感分析、大語言模型等熱門方向。

難度：作為NLP領域的旗艦會議，EMNLP吸引了全球頂尖高校和科技公司的投稿，2025年投稿數(shù)接近10000，歷年錄用率極低（通常在15%-20%左右）。

Semantic-guided Diverse Decoding for Large Language Model (NeurIPS 2025）

論文鏈接：https://arxiv.org/pdf/2506.23601

摘要

在大語言模型（LLM）的實際應用中，生成多樣且有意義的回答始終是關鍵需求 —— 無論是 Best-of-N 策略中通過多候選提升小模型性能，還是 RLHF 訓練中通過多樣本優(yōu)化獎勵信號，亦或是數(shù)據(jù)合成時構建豐富訓練集，都需要模型跳出換詞不換義的局限。

然而，當前主流的解碼方法如溫度采樣、多樣化束搜索等，大多只能實現(xiàn)表層詞匯的多樣性，生成的回答看似不同，核心語義卻高度重合。這一痛點嚴重制約了大模型在復雜任務中的潛力。

香港科技大學聯(lián)合沐曦研究團隊提出了SemDiD（Semantic-guided Diverse Decoding）—— 一種直接在語義嵌入空間操作的解碼算法，通過三大核心機制實現(xiàn)質量與多樣性的平衡，在 Best-of-N 和 RLHF 任務中均實現(xiàn)顯著性能提升。

核心痛點：現(xiàn)有解碼方法的

語義多樣性陷阱

為什么現(xiàn)有多樣化解碼方法效果有限？研究團隊通過實驗指出了兩大關鍵問題：

多樣性停留在詞匯層面：溫度采樣通過調整概率分布增加隨機性，多樣化束搜索通過 n-gram 懲罰避免重復，但這些方法均未觸及語義層面。例如，對于如何解決數(shù)學應用題的問題，模型可能生成先算 A 再算 B和先計算 A 然后計算 B這類表層差異，而非不同解題思路。

概率評估的固有偏見：傳統(tǒng)方法用 token 概率衡量回答質量，但存在嚴重的位置偏差和長度偏差 —— 序列越靠后的 token 因上下文更確定，概率往往更高；句子中遠離標點的 token 也會獲得更高置信度。這導致長回答被過度高估，短回答被不公平扣分，質量評估失真。

SemDiD：三大機制實現(xiàn)

語義級多樣化解碼

SemDiD 的核心思路是直接在語義嵌入空間引導解碼過程，而非在 token 層面做文章。它通過正交方向引導、動態(tài)組間排斥、去偏概率評估三大機制，同時保證回答質量與語義多樣性，整體架構如圖 1 所示。

實驗：在 Best-of-N 和 RLHF 中

全面領先

研究團隊在 9 個基準任務（涵蓋推理、問答、機器翻譯）和 3 種 RLHF 算法（Iterative-RLHF、GRPO、RLOO）上驗證了 SemDiD 的效果，對比了溫度采樣、算術采樣、多樣化束搜索等主流方法。

1. Best-of-N 任務：覆蓋度提升 1.4%-5.2%

Best-of-N 的核心指標是「覆蓋度」（測試集中至少有一個正確回答的樣本比例）和「準確率」（通過投票 / LLM-Judge 選出正確回答的比例）。結果顯示：

在推理任務中，SemDiD 用 25 個樣本實現(xiàn) 82.4%（ARC-Challenge）、85.6%（BBH）、98.1%（GSM8K）的覆蓋度，較最佳基線提升 1.8%-4.3%。

在問答任務中，MMLU-Pro + 的覆蓋度提升最為顯著，達 5.2%（25 個樣本時 82.63% vs 77.43%）。

即使是小嵌入模型（0.5B 參數(shù)），SemDiD 的語義聚類效果也優(yōu)于基于 n-gram 的聚類，25 個樣本時覆蓋度達 95%，遠超概率選擇的 92%。

2. RLHF 任務：訓練收斂加速 15%，準確率提升 2.1%

在 RLHF 訓練中，多樣化的候選能提供更豐富的獎勵信號，避免策略坍縮。實驗顯示：

在 TLDR 摘要任務中，SemDiD 使 GRPO 算法的 win rate（GPT-o1-mini 評估）達 73.4%，較最佳基線提升 3.2%。

在 GSM8K 數(shù)學推理任務中，SemDiD 幫助 Iterative-RLHF、GRPO、RLOO 的準確率分別達 85.5%、88.2%、82.4%，最高提升 2.1%。

更重要的是，SemDiD 使 RLHF 訓練收斂速度加快 15%—— 在 60 次 rollout 時就能達到其他方法 100 次 rollout 的性能，大幅降低訓練成本。

Domain Impact-aware Data Sampling for Large Language Model Training (EMNLP 2025）

論文鏈接：https://arxiv.org/pdf/2504.13227

摘要

在大語言模型（LLM）訓練中，數(shù)據(jù)選擇始終是決定效率與性能的關鍵 —— 海量多領域訓練數(shù)據(jù)（如代碼、學術論文、網頁文本）中，不同領域對下游任務的貢獻差異巨大，且這種貢獻會隨訓練過程動態(tài)變化。傳統(tǒng)靜態(tài)采樣策略（如均勻采樣、固定比例混合）要么浪費算力在低效數(shù)據(jù)上，要么無法適應訓練動態(tài)，導致模型性能難以最大化。

香港科技大學聯(lián)合沐曦的研究團隊提出DIDS（Domain Impact-aware Data Sampling）—— 一種基于領域影響的動態(tài)數(shù)據(jù)采樣框架。它通過梯度聚類重劃分領域、FIM 引導評估領域影響、結合學習軌跡動態(tài)調整采樣比例三大核心步驟，在僅使用 10% 訓練數(shù)據(jù)的情況下，實現(xiàn)平均 3.4% 的性能提升，同時保持訓練效率與基線相當。

核心痛點：傳統(tǒng)領域采樣策略的

兩大局限

現(xiàn)有領域級數(shù)據(jù)采樣方法難以平衡領域內一致性與動態(tài)影響評估，導致訓練效率低下：

領域劃分缺乏訓練相關性：傳統(tǒng)方法要么按數(shù)據(jù)源（如 “代碼數(shù)據(jù)”“數(shù)學數(shù)據(jù)”）劃分領域，要么用 BERT 語義聚類，但這些方式無法保證同一領域內的數(shù)據(jù)對模型訓練有相似影響。例如，數(shù)學證明與編程實現(xiàn)雖屬不同數(shù)據(jù)源，卻因共享邏輯推理特性，對模型參數(shù)更新的模式高度相似；反之，同一數(shù)據(jù)源的網頁文本也可能因內容差異觸發(fā)完全不同的梯度變化。

領域影響評估失真且靜態(tài)：現(xiàn)有方法要么依賴計算昂貴的網格搜索（如 MM1），無法適應訓練過程中領域重要性的動態(tài)變化；要么僅通過梯度相似度衡量領域影響（如 DGA、Doge），卻忽略了參數(shù)更新對模型下游任務預測行為的實際影響。例如，梯度相似的兩個領域，可能對模型在數(shù)學推理任務上的輸出分布改變程度完全不同。

DIDS：三步實現(xiàn)動態(tài)領域采樣優(yōu)化

DIDS 的核心思路是從 “訓練影響” 出發(fā)定義領域，并動態(tài)評估領域對下游任務的實際價值，最終實現(xiàn)資源向高價值領域傾斜。其整體流程分為 “領域重劃分”“領域影響評估”“采樣比例更新” 三步（圖 2），形成閉環(huán)優(yōu)化。

實驗：10% 數(shù)據(jù)實現(xiàn) 3.4%

性能提升，多場景驗證有效性

研究團隊在 Llama-3.1-8B/70B、Mixtral-7B 等模型上，基于 Tulu-3（93.9 萬樣本）和 OpenHermes-2.5 數(shù)據(jù)集，在 9 個下游任務（涵蓋推理、數(shù)學、指令跟隨、生物醫(yī)學問答等）上驗證了 DIDS 的效果，對比了均勻采樣、Random、Doremi、Velocitune、Doge、DGA 等主流基線。

多任務優(yōu)化：DIDS 僅用 10 萬樣本（約 10% 全量數(shù)據(jù)），平均得分 62.3，不僅超過所有基線（如最強基線 Doge 得 60.2），還超越了全量數(shù)據(jù)訓練的模型（61.2）。其中數(shù)學推理任務提升最顯著，Minerva-MathQA 從 17.8 提升至 20.5（+2.7），TruthfulQA 從 37.2 提升至 43.0（+5.8）。

單任務優(yōu)化：DIDS 平均得分 63.7，較第二好的 DGA（61.6）提升 2.1，在知識密集型任務上優(yōu)勢明顯 ——IFEval（指令跟隨）從 53.2 提升至 57.5（+4.3），TruthfulQA 從 38.5 提升至 44.8（+6.3）。

關于沐曦

沐曦致力于自主研發(fā)全棧高性能GPU芯片及計算平臺，為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐，助力數(shù)字經濟發(fā)展。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39707

瀏覽量
301304
機器學習

機器學習

+關注

關注
66

文章
8553

瀏覽量
136916
沐曦

沐曦

+關注

關注
1

文章
80

瀏覽量
1805

原文標題：沐曦聯(lián)合香港科技大學登上AI頂會

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

沐曦聯(lián)合香港科技大學登上AI頂會

評論