亚洲AV无码片久久,欧美高清老熟妇特黄毛片,亚洲中文无码AV

【新智元導讀】今天，百川智能正式發(fā)布70億參數(shù)開源中英文大模型——baichuan-7B，一舉拿下多個評測榜單最佳成績。

時隔兩個月，王小川組建的「百川智能」在6月15日正式推出首個70億參數(shù)中英文預訓練大模型——baichuan-7B。

baichuan-7B不僅在C-Eval、AGIEval和Gaokao中文權威評測榜單上，以顯著優(yōu)勢全面超過了ChatGLM-6B等其他大模型，并且在MMLU英文權威評測榜單上，大幅領先LLaMA-7B。

目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。

Hugging Face：https://huggingface.co/baichuan-inc/baichuan-7B

Github：https://github.com/baichuan-inc/baichuan-7B

Model Scope：https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

多個中文評估基準拿下7B最佳

為了驗證模型的各項能力，baichuan-7B在C-Eval、AGIEval和Gaokao三個最具影響力的中文評估基準進行了綜合評估，并且均獲得了優(yōu)異成績，它已經(jīng)成為同等參數(shù)規(guī)模下中文表現(xiàn)最優(yōu)秀的原生預訓練模型。

在AGIEval的評測里，baichuan-7B綜合評分達到34.4分，遠超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。

在中文C-EVAL的評測中，baichuan-7B的綜合評分達到了42.8分，超過了ChatGLM-6B的38.9分，甚至比某些參數(shù)規(guī)模更大的模型還要出色。

在Gaokao評測中，baichuan-7B的綜合評分達到了36.2分，顯著領先于同參數(shù)規(guī)模的各種其他預訓練模型。

https://cevalbenchmark.com/static/leaderboard_zh.html（2023-06-15）

AGIEval評測基準由微軟研究院發(fā)起，旨在全面評估基礎模型在人類認知和問題解決相關任務上的能力，包含了中國的高考、司法考試，以及美國的SAT、LSAT、GRE和GMAT等20個公開且嚴謹?shù)墓俜饺雽W和職業(yè)資格考試。

C-Eval評測基準由上海交通大學、清華大學以及愛丁堡大學聯(lián)合創(chuàng)建，是面向中文語言模型的綜合考試評測集，覆蓋了52個來自不同行業(yè)領域的學科。

Gaokao評測基準是復旦大學研究團隊創(chuàng)建的評測框架，以中國高考題目作為數(shù)據(jù)集，用于測試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。

MMLU基準大幅領先LLaMA-7B

baichuan-7B不僅在中文方面表現(xiàn)優(yōu)異，在英文上表現(xiàn)同樣亮眼。

在MMLU的評測中baichuan-7B綜合評分高達42.5分，大幅領先英文開源預訓練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。

MMLU由加州大學伯克利分校等知名高校共同打造，集合了科學、工程、數(shù)學、人文、社會科學等領域的57個科目，主要目標是對模型的英文跨學科專業(yè)能力進行深入測試。其內(nèi)容廣泛，從初級水平一直涵蓋到高級專業(yè)水平。

萬億數(shù)據(jù)、4K上下文、高效穩(wěn)定訓練

訓練語料對大模型的訓練結果至關重要。在構建預訓練語料庫方面，百川智能以高質量中文語料為基礎，同時融合了優(yōu)質的英文數(shù)據(jù)。

具體來說，原始數(shù)據(jù)包括自行抓取的海量中英文互聯(lián)網(wǎng)數(shù)據(jù)和部分開源的中英文數(shù)據(jù)，以及大量高質量知識性數(shù)據(jù)。

在數(shù)據(jù)質量方面，通過質量模型對數(shù)據(jù)進行打分，對原始數(shù)據(jù)集進行篇章級和句子級的精確篩選。

在內(nèi)容多樣性方面，利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng)，對數(shù)據(jù)進行了多層次多粒度的聚類，最終構建了包含1.2萬億token的兼顧質量和多樣性的預訓練數(shù)據(jù)。

相較于其他同參數(shù)規(guī)模的開源中文預訓練模型，數(shù)據(jù)量提高了超過50%。

在萬億優(yōu)質中英文數(shù)據(jù)的基礎上，為了更好地提升訓練效率，baichuan-7B深度整合了模型算子來加快計算流程，并針對任務負載和集群配置，自適應優(yōu)化了模型并行策略以及重計算策略。

通過高效的訓練過程調(diào)度通信，baichuan-7B成功地實現(xiàn)了計算與通信的高效重疊，進而達到了超線性的訓練加速，在千卡集群上訓練吞吐達到180+Tflops的業(yè)界領先水平。

同時，已有的開源模型窗口長度在2K以內(nèi)，對于一些長文本建模任務，如需要引入外部知識做搜索增強的場景，更長的處理長度有助于模型在訓練與推理階段捕獲越多的上下文信息，2K的處理長度存在比較大的制約。

經(jīng)過優(yōu)化的分詞算法

baichuan-7B基于高效的attention算子優(yōu)化實現(xiàn)了萬級別超長動態(tài)窗口的擴張能力，本次開源的預訓練模型開放了4K上下文窗口，使模型應用場景更加廣泛。

此外，baichuan-7B還對模型訓練流程進行了深度優(yōu)化，采用了更科學且穩(wěn)定的訓練流程和超參數(shù)選擇，使得 baichuan-7B模型的收斂速度大大提升。

與同等參數(shù)規(guī)模的模型相比，baichuan-7B在困惑度（PPL）和訓練損失（training loss）等關鍵性能指標上表現(xiàn)更加優(yōu)秀。

開源免費可商用，清北已搶先體驗

秉持開源精神，baichuan-7B代碼采用Apache-2.0協(xié)議，模型權重采用了免費商用協(xié)議，只需進行簡單登記即可免費商用。

baichuan-7B此次開源的內(nèi)容十分豐富，包含了推理代碼、INT4量化實現(xiàn)、微調(diào)代碼，以及預訓練模型的權重。

其中，微調(diào)代碼方便用戶對模型進行調(diào)整和優(yōu)化；推理代碼與INT4量化實現(xiàn)則有助于開發(fā)者低成本地進行模型的部署和應用；預訓練模型權重開源后，用戶則可以直接使用預訓練模型進行各種實驗研究。

據(jù)了解，北京大學和清華大學兩所頂尖大學已率先使用baichuan-7B模型推進相關研究工作，并計劃在未來與百川智能深入合作，共同推動baichuan-7B模型的應用和發(fā)展。

清華大學互聯(lián)網(wǎng)司法研究院院長、計算機系教授劉奕群認為， baichuan-7B模型在中文上的效果表現(xiàn)十分出色，它免費商用的開源方式展現(xiàn)出開放的態(tài)度，不僅貢獻社區(qū)，也推動技術發(fā)展。團隊計劃基于baichuan-7B模型開展司法人工智能領域的相關研究。

北京大學人工智能研究院助理教授楊耀東認為，baichuan-7B模型的開源將對于中文基礎語言模型的生態(tài)建設及學術研究產(chǎn)生重要推動作用，同時他也表示將持續(xù)關注相關領域探索，并且在中文大語言模型的安全和對齊上進行進一步深入研究。

百川智能CEO王小川表示：「本次開源模型的發(fā)布是百川智能成立2個月后的第一個里程碑，對百川智能而言是一個良好的開局。baichuan-7B模型，不僅能為中國的AGI事業(yè)添磚加瓦，也為世界大模型開源社區(qū)貢獻了新的力量。」

技術團隊專訪

Q：baichuan-7B如何處理幻覺問題，未來該如何提高結果正確性？

A：大模型在可見的未來還不能徹底解決幻覺問題，一方面通過強化學習來讓模型知道自己不知道，有效緩解幻覺，更重要的是需要靠「搜索增強」引入外部知識來逐步解決幻覺問題。

Q：baichuan-7B能帶來哪些商用價值？

A：baichuan-7B作為在多個榜單評測效果成績最佳的7B開源可商用大模型，填補了市場上缺乏優(yōu)質的針對中文優(yōu)化的7B大模型的空白，是開發(fā)者理想的7B大模型底座。同時在商用價值方面，能夠在例如文本生成，自動化寫作，數(shù)據(jù)分析，知識問答，中英翻譯，個性化交互和專業(yè)領域個人小助手，比如醫(yī)療領域，給用戶帶來巨大的價值。

Q：baichuan-7B在評測榜的成績達到最初的訓練模型預期了嗎？

A：打榜并不是我們的目的，我們相信好的數(shù)據(jù)和算法能力，評測自然會有好的結果，這次baichuan-7B在多個最具影響力的評測中的優(yōu)異表現(xiàn)也驗證了百川的這個理念。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴