淺析AI大型語言模型研究的發(fā)展歷程

一、大模型發(fā)展情況

1、行業(yè)發(fā)展歷程

語言是人類表達(dá)和交流的突出能力，其在兒童早期發(fā)展并在一生中不斷演變。然而，除非配備強(qiáng)大的人工智能（AI）算法，機(jī)器不會自然地掌握理解和使用人類語言的能力。要讓機(jī)器像人類一樣閱讀、寫作和交流一直是一個長期的研究挑戰(zhàn)。從技術(shù)上講，語言建模（Language Model, LM）是提高機(jī)器語言智能的主要方法之一。一般來說，LM 旨在對單詞序列的生成概率進(jìn)行建模，以便預(yù)測未來（或缺失）單詞的概率。LM 的研究在學(xué)界中得到了廣泛的關(guān)注，可以分為四個主要發(fā)展階段：統(tǒng)計語言模型（SLM）：SLM 是基于 20 世紀(jì) 90 年代興起的統(tǒng)計學(xué)習(xí)方法開發(fā)的。其基本思想是基于馬爾可夫假設(shè)構(gòu)建單詞預(yù)測模型，例如根據(jù)最近的上下文預(yù)測下一個單詞。具有固定上下文長度 n 的 SLM 也被稱為 n-gram 語言模型，例如二元和三元語言模型。SLM 已經(jīng)被廣泛應(yīng)用于提高信息檢索（IR）和自然語言處理（NLP）任務(wù)的性能。然而，它們經(jīng)常受到維度災(zāi)難的影響：由于需要估計指數(shù)級的轉(zhuǎn)移概率，因此很難準(zhǔn)確估計高階語言模型。因此，專門設(shè)計的平滑策略，例如后退估計和 Good-Turing 估計已經(jīng)被引入為緩解數(shù)據(jù)稀疏問題。

神經(jīng)語言模型（NLM）：NLM 通過神經(jīng)網(wǎng)絡(luò)，例如遞歸神經(jīng)網(wǎng)絡(luò)（RNNs），來描述單詞序列的概率。作為一個顯著的貢獻(xiàn)，Y. Bengio 和 R. Ducharme 等人引入了單詞的分布式表示的概念，并構(gòu)建了基于聚合上下文特征（即分布式單詞向量）的單詞預(yù)測函數(shù)。通過擴(kuò)展學(xué)習(xí)詞或句子有效特征的想法，已有研究開發(fā)了一種通用神經(jīng)網(wǎng)絡(luò)方法來為各種自然語言處理任務(wù)構(gòu)建統(tǒng)一解決方案。此外，word2vec 提出了構(gòu)建一個簡化的淺層神經(jīng) 網(wǎng)絡(luò)，用于學(xué)習(xí)分布式單詞表示，這在各種 NLP 任務(wù)中被證明非常有效。這些研究開創(chuàng)了語言模型用于表示學(xué) 習(xí)（超越了詞序列建模）的應(yīng)用，對 NLP 領(lǐng)域產(chǎn)生了重要影響。預(yù)訓(xùn)練語言模型（PLM）：作為早期嘗試，ELMo 被提出來通過預(yù)訓(xùn)練一個雙向 LSTM（biLSTM）網(wǎng)絡(luò)（而不是學(xué)習(xí)固定的詞表示）來捕捉上下文感知的詞表示，然后根據(jù)特定的下游任務(wù)微調(diào) biLSTM 網(wǎng)絡(luò)。此外，基于高度可并行化的 Transformer 架構(gòu)和自注意力機(jī)制，BERT 提出了通過在大規(guī)模無標(biāo)注語料庫上設(shè)計特定的預(yù) 訓(xùn)練任務(wù)來預(yù)訓(xùn)練雙向語言模型。這些預(yù)訓(xùn)練的上下文感知的單詞表示非常有效，可作為通用語義特征，大大提高了 NLP 任務(wù)的性能。這項研究啟發(fā)了大量的后續(xù)工作，建立了“預(yù)訓(xùn)練和微調(diào)”學(xué)習(xí)范式。在此范式下，開發(fā)了大量關(guān)于 PLM 的研究，引入了不同的架構(gòu)（例如 GPT-2 和 BAR）或改進(jìn)的預(yù)訓(xùn)練策略。在這個范式中，通常需要微調(diào) PLM 以適應(yīng)不同的下游任務(wù)。

大型語言模型（LLM）：研究人員發(fā)現(xiàn)，擴(kuò)展 PLM（例如擴(kuò)展模型大小或數(shù)據(jù)大?。┩ǔ?dǎo)致模型在下游任務(wù)上具有更強(qiáng)的能力（即遵循縮放定律）。一些研究探索了通過訓(xùn)練更大的 PLM（例如 175B 參數(shù)的 GPT-3 和 540B 參數(shù)的 PaLM）來達(dá)到性能極限。盡管縮放主要是在模型大?。ň哂蓄愃频募軜?gòu)和預(yù)訓(xùn)練任務(wù)）方面進(jìn) 行的，但這些大型 PLM 顯示出與較小 PLM（例如 330M 參數(shù)的 BERT 和 1.5B 參數(shù)的 GPT-2）不同的行為，并展現(xiàn)出令人驚訝的能力（稱為涌現(xiàn)能力）以解決一系列復(fù)雜任務(wù)。例如，GPT-3 可以通過上下文學(xué)習(xí)來解決少樣本任務(wù)，而 GPT-2 做不好。因此，研究界為這些大型 PLM 創(chuàng)造了“大型語言模型（LLM）”的術(shù)語。LLM 的一個顯著應(yīng)用是 ChatGPT，它利用 GPT 系列的 LLM 適應(yīng)對話，具有驚人的與人類對話的能力。大語言模型相較于以往的語言模型具備顯著優(yōu)勢，其具備優(yōu)秀的上下文學(xué)習(xí)能力、可觀的知識容量、優(yōu)秀的泛化性和復(fù)雜推理能力。

大型語言模型研究的發(fā)展有三條技術(shù)路線：Bert 模式、GPT 模式、混合模式。其中國內(nèi)大多采用混合模式，多數(shù)主流大型語言模型走的是 GPT 技術(shù)路線，直到 2022 年底在 GPT-3.5 的基礎(chǔ)上產(chǎn)生了 ChatGPT。到 2019 年后，Bert 路線基本沒有標(biāo)志性的新模型更新，而 GPT 技術(shù)路線則趨于繁榮。從 Bert 往 GPT 演化的過程中，模型越來越大，所實現(xiàn)的性能也越來越通用。各類大語言模型路線各有側(cè)重，GPT 模式在生成類任務(wù)表現(xiàn)最優(yōu)。大型語言模型按照從數(shù)據(jù)到知識來劃分，數(shù)據(jù)可分為通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)，知識分為語言知識和世界知識。從任務(wù)類型來劃分，大型語言模型可以分為單一任務(wù)和多任務(wù)、理解類和生成類；Bert 模式有兩階段（雙向語言模型預(yù)訓(xùn)練+任務(wù) Fine-tuning），適用于理解類以及某個場景的具體任務(wù)，表現(xiàn)得“專而輕”。GPT 模式是由兩階段到一階段（單向語言模型預(yù)訓(xùn)練+zero-shot prompt），比較適合生成類任務(wù)、多任務(wù)，表現(xiàn)得“重而通”。T5 模式則將兩者的方法結(jié)合，包含有兩階段（單向語言模型預(yù)訓(xùn)練+Fine-tuning）。根據(jù)當(dāng)前研究結(jié)論，如果模型規(guī)模不特別大，面向單一領(lǐng)域的理解類任務(wù)，適合用 T5 模式，而 GPT 模式在做生成類任務(wù)時的效果最好。綜合來看，當(dāng)前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取 GPT 模式。

如今，LLM 正在對人工智能社區(qū)產(chǎn)生重大影響，ChatGPT 和 GPT-4 的出現(xiàn)引發(fā)了重新思考人工智能通用智能（AGI）的可能性。OpenAI 已經(jīng)發(fā)表了一篇名為“Planning for AGI and beyond”的技術(shù)文章，討論了實現(xiàn) AGI 的短期和長期計劃，而最近的一篇論文則認(rèn)為 GPT-4 可能被視為一個早期版本的 AGI 系統(tǒng)。LLM 的快速進(jìn)步正在徹底改變?nèi)斯ぶ悄艿难芯款I(lǐng)域。在自然語言處理領(lǐng)域，LLM 可以在某種程度上充當(dāng)通用語言任務(wù)求解器，研究范式已經(jīng)轉(zhuǎn)向使用 LLM。在信息檢索領(lǐng)域，傳統(tǒng)的搜索引擎正在被 AI 聊天機(jī)器人（即 ChatGPT）挑戰(zhàn)，而 New Bing 則是基于 LLM 增強(qiáng)搜索結(jié)果的初始嘗試。在計算機(jī)視覺領(lǐng)域，研究人員試圖開發(fā)類似于 ChatGPT 的視覺語言模型，以更好地服務(wù)于多模態(tài)對話，而 GPT-4 通過集成視覺信息已經(jīng)支持多模態(tài)輸入。這股新的技術(shù)浪潮有可能會導(dǎo)致基于 LLM 的真實世界。例如，Microsoft 365 正在被 LLM（如 Copilot）賦能以自動化辦公工作，而 OpenAI 支持在 ChatGPT 中使用插件來實現(xiàn)特殊功能。

起源于 Transformer 模型，ChatGPT 經(jīng)過 5 年迭代成功出世。ChatGPT 的誕生經(jīng)歷了從 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代過程，其具體發(fā)展歷程如下：（1）2017 年 6 月，Google 發(fā)布論文《Attention is all you need》，首次提出 Transformer 模型，成為 GPT 發(fā)展的基礎(chǔ)；（2）2018 年 6 月, OpenAI 發(fā)布論文《Improving Language Understanding by Generative Pre-Training》，首次提出 GPT 模型,即 GPT-1，模型參數(shù)量達(dá) 1.17 億；（3）2019 年 2 月，OpenAI 發(fā)布論文《Language Models are Unsupervised Multitask Learners》，提出 GPT-2 模型, 大模型共計 48 層，參數(shù)量達(dá) 15 億；（4）2020 年 5 月，OpenAI 發(fā)布論文《Language Models are Few-Shot Learners》，提出 GPT-3 模型, 參數(shù)量達(dá) 1750 億；（5）2022 年 2 月底，OpenAI 發(fā)布論文《Training language models to follow instructions with human feedback》，公布 Instruction GPT 模型，參數(shù)量達(dá) 13 億；（6）2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模型，并提供試用。

2、大語言模型概覽

通常，大型語言模型（LLMs）是指包含數(shù)千億（或更多）參數(shù)的語言模型，它們是在海量文本數(shù)據(jù)上進(jìn)行訓(xùn)練的，例如 GPT-3，PaLM，Galactica 和 LLaMA。具體來說，LLMs 建立在 Transformer 架構(gòu)之上，其中多頭注意力層在一個非常深的神經(jīng)網(wǎng)絡(luò)中堆疊。現(xiàn)有的 LLMs 主要采用類似的模型架構(gòu)（即 Transformer）和預(yù)訓(xùn)練目標(biāo)（即語言建模）作為小型語言模型。作為主要區(qū)別，LLMs 大量擴(kuò)展了模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計算量（數(shù)量級）。它們可以更好地理解自然語言，并基于給定的上下文（即提示）生成高質(zhì)量的文本。這種能力提升可以部分地由縮放法則描述，即性能大致隨著模型大小的增加而顯著增加。然而，一些能力（例如上下文學(xué)習(xí)）是不可預(yù)測的，只有當(dāng)模型大小超過一定水平時才能觀察到。

百億參數(shù)量級別的模型：這類模型的參數(shù)規(guī)模除了 LLaMA（最大版本 65B 參數(shù)）和 NLLB（最大版本 54.5B 參數(shù)），大多在 10B 至 20B 之間。這一參數(shù)范圍內(nèi)的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中，F(xiàn)lan-T5（11B 版本）可以作為研究指令微調(diào)的首選模型，因為它從三個方面探索了指令微調(diào)：增加任務(wù)數(shù)量、擴(kuò)大模型規(guī)模和使用思維鏈提示數(shù)據(jù)進(jìn)行微調(diào)。CodeGen（11B）是一個為生成代碼設(shè)計的自回歸語言模型，可用作探索代碼生成能力的候選模型，其提出了一個新的基準(zhǔn)測試 MTPB，專門用于多輪程序合成，由 115 個專家生成的問題組成，為了解決這些問題，需要大語言模型獲得足夠的編程知識（例如數(shù)學(xué)、數(shù)組操作和算法）。對于多語言任務(wù)，mT0（13B）可能是一個比較好的候選模型，因為它在多語言任務(wù)中使用多語言提示進(jìn)行微調(diào)。此外，對于中文的下游任務(wù)，PanGu-α具有較好的表現(xiàn)，特別是在零樣本或小樣本的設(shè)置下，該模型基于深度學(xué)習(xí)框架 MindSpore 開發(fā)，擁有多個參數(shù)版本（最大版本 200B 參數(shù)），而最大的公開版本只有 13B 參數(shù)。此外，作為最近發(fā)布的模型，LLaMA（65B）在與指令遵循相關(guān)的任務(wù)中展現(xiàn)了卓越的性能。由于其開放性和有效性，LLaMA 引起了研究界的廣泛關(guān)注，許多工作致力于微調(diào)或繼續(xù)訓(xùn)練其不同的模型版本以實現(xiàn)新模型或工具的開發(fā)。百億參數(shù)量級別的模型通常需要數(shù)百甚至上千個 GPU 或 TPU。例如，GPT-NeoX-20B 使用了 12 個微服務(wù)器，每個服務(wù)器配備了 8 個 NVIDIA A100-SXM4-40GBGPU，LLaMA 使用了 2048 個 A100-80GGPU。為了準(zhǔn)確估計所需的計算資源，我們還是建議使用衡量涉及計算量的指標(biāo)，例如計算 FLOPS（每秒浮點數(shù)運算次數(shù)）。

據(jù)中移智庫統(tǒng)計，截止到 2023 年 4 月 18 日，國內(nèi)至少有 19 家企業(yè)及科研院所涉足人工智能大模型訓(xùn)練，主要分為大型科技公司、科研院校和初創(chuàng)科技團(tuán)隊三類。具體來看：百度、阿里等 12 家大型科技公司和中國科學(xué)院、清華大學(xué)等 3 家科研院校已經(jīng)提供開放測試，或有明確的推出時間計劃；字節(jié)跳動、搜狗創(chuàng)始人王小川、美團(tuán)創(chuàng)始人王慧文、創(chuàng)新工場創(chuàng)始人李開復(fù)等則是最近對外宣布組建團(tuán)隊，進(jìn)軍大模型研發(fā)領(lǐng)域。其中，字節(jié) 跳動旗下火山引擎于 4 月 18 日發(fā)布自研 DPU（數(shù)據(jù)處理器）等系列云產(chǎn)品，推出新版機(jī)器學(xué)習(xí)平臺，可以支持萬卡級大模型訓(xùn)練、微秒級延遲網(wǎng)絡(luò)，為預(yù)訓(xùn)練模型提供強(qiáng)大的算力支持。

從大模型參數(shù)量看，科技大廠的參數(shù)量遠(yuǎn)大于科研院所。科技大廠的大模型參數(shù)量較大：阿里通義千問大模型參數(shù)在 10 萬億級以上、騰訊混元大模型和華為盤古大模型參數(shù)量均在萬億級以上、百度文心一言大模型參數(shù)量在 2 千億級以上、京東言犀大模型的參數(shù)量為千億級；垂直行業(yè)科技企業(yè)已經(jīng)上線的參數(shù)量普遍在千億級以上;而科研院校大模型的參數(shù)量在千億級及以下。從大模型應(yīng)用方向看，大部分企業(yè)前期以內(nèi)部應(yīng)用為主，后續(xù)主要向 B 端企業(yè)拓展服務(wù)，預(yù)計少數(shù)企業(yè)將在 C 端市場形成規(guī)模。目前，百度文心大模型、華為盤古大模型、中國科學(xué)院紫東太初大模型均在 B 端垂類市場積累了標(biāo)桿應(yīng)用案例，騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業(yè)務(wù)。而在 C 端市場應(yīng)用方面，百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展，但目前只有百度文心一言大模型正在進(jìn)行友好客戶測試，阿里通義千問大模型則計劃在今年 9 月份進(jìn)行公測，騰訊混元助手大模型則處于計劃開發(fā)狀態(tài)。

3、產(chǎn)業(yè)發(fā)展趨勢

大模型是基于海量多源數(shù)據(jù)打造的預(yù)訓(xùn)練模型，是對原有算法模型的技術(shù)升級和產(chǎn)品迭代，用戶可通過開源或開放 API/工具等形式進(jìn)行模型零樣本/小樣本數(shù)據(jù)學(xué)習(xí)，以實現(xiàn)更優(yōu)的識別、理解、決策、生成效果和更低成本的開發(fā)部署方案。大模型的核心作用是突破數(shù)據(jù)標(biāo)注的困境，通過學(xué)習(xí)海量無標(biāo)注的數(shù)據(jù)來做預(yù)訓(xùn)練，拓展整體模型前期學(xué)習(xí)的廣度和深度，以此提升大模型的知識水平，從而低成本、高適應(yīng)性地賦能大模型在后續(xù) 下游任務(wù)中的應(yīng)用。在實踐中，預(yù)訓(xùn)練大模型在基于海量數(shù)據(jù)的自監(jiān)督學(xué)習(xí)階段完成了“通識”教育，再借助 “預(yù)訓(xùn)練+精調(diào)”等模式，在共享參數(shù)的情況下，根據(jù)具體應(yīng)用場景的特性，用少量數(shù)據(jù)進(jìn)行相應(yīng)微調(diào)，即可高水平完成任務(wù)。

大模型增強(qiáng)了 AI 技術(shù)的通用性，讓開發(fā)者以更低成本、更低門檻，面向場景研發(fā)更好的 AI 模型，助力普惠 AI 的實現(xiàn)。但目前，基礎(chǔ)大模型距離大規(guī)模產(chǎn)業(yè)應(yīng)用并成為產(chǎn)業(yè)基座還有很長的一段路要走，不僅需要有與場景深度融合的大模型體系，也需要有支持全流程應(yīng)用落地的專業(yè)工具和平臺，還需要開放的生態(tài)來激發(fā)創(chuàng)新；三層之間交互賦能，才能形成良性循環(huán)的產(chǎn)業(yè)智能化生態(tài)共同體。我們看到 OpenAI 在開發(fā) GPT 大模型的過程中具有相似的思路，在不斷加強(qiáng)大模型本身性能的同時，將 GPT 打包成產(chǎn)品，對外提供 API 服務(wù)，相關(guān)開發(fā)者、企業(yè)、學(xué)術(shù)機(jī)構(gòu)以及高校都可以申請使用。開放后，大量開發(fā)者利用 API 開發(fā)出了各種各樣的功能，例如翻譯機(jī)、網(wǎng)站生成器等；OpenAI 則通過用戶獲取了更多的行為數(shù)據(jù)，形成了對 GPT 的反哺。由此可見，“模型+工具平臺+生態(tài)”三層共建有助于業(yè)務(wù)的良性循環(huán)，也更容易借助長期積累形成競爭壁壘。

生態(tài)層是基于大模型能力打造共創(chuàng)、共享社區(qū)。大模型“預(yù)訓(xùn)練+精調(diào)”的新研發(fā)范式，讓 AI 在識別、理解、生成等方面的能力實現(xiàn)突破，帶來深度語義理解、智能交互、內(nèi)容生成的技術(shù)與產(chǎn)品變革動能。打造基于大模型能力的生態(tài)，提供能力、工具、服務(wù)，連接供需，吸引更多的開發(fā)者和企業(yè)共創(chuàng)、共享，是釋放大模型潛力的重要路徑。“模型+工具平臺+生態(tài)”的模式需要協(xié)同優(yōu)化，拓寬人工智能技術(shù)落地的場景覆蓋廣度，加深產(chǎn)業(yè)實際應(yīng)用的深度，共同加速產(chǎn)業(yè)智能化，推動人工智能技術(shù)賦能千行百業(yè)，惠及千家萬戶。 “模型+工具平臺+生態(tài)”的模式需要協(xié)同優(yōu)化，才能拓寬人工智能技術(shù)落地的場景覆蓋廣度，加深產(chǎn)業(yè)實際應(yīng)用的深度，共同加速產(chǎn)業(yè)智能化，推動人工智能技術(shù)賦能千行百業(yè)，惠及千家萬戶。

二、互聯(lián)網(wǎng)大廠模型

1、阿里

阿里以“通義大模型+飛天智算平臺+魔塔社區(qū)+行業(yè)應(yīng)用”成為大模型全部環(huán)節(jié)的重要參與者。2019 年，阿里達(dá)摩院開啟大模型研究。2022 年 9 月，阿里正式發(fā)布通義大模型，包括通義 M6 多模態(tài)模型、通義 AliceMind 自然語言處理模型、通義視覺計算機(jī)視覺模型。2022 年 11 月，阿里推出 AI 開源社區(qū)“魔搭”(ModelScope)，旨在打造下一代“模型即服務(wù)”的共享平臺，整合業(yè)界多方模型提供者，為開發(fā)者提供預(yù)訓(xùn)練基礎(chǔ)模型和 API 接口。目前該平臺已有超過 300 個開源模型，包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外部資源和能力。2023 年 4 月，阿里正式發(fā)布了“通義千問”產(chǎn)品，該產(chǎn)品基于 10 萬億級參數(shù)的大模型底座 M6-OFA，未來將具有多輪交互及復(fù)雜指令理解、可多模態(tài)融合、支持外部增強(qiáng) API 等多種能力。另外，阿里不僅擁有最多的英偉達(dá) A100 芯片，還擁有自研芯片含光 800、倚天 710 芯片，共同為人工智能大模型提供算力。

1.1 模型

阿里推出“通義”系列大模型，由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成，不僅通用多種任務(wù)，又容易落地應(yīng)用，其中，應(yīng)用在 B 端更有優(yōu)勢。2022 年 9 月 2 日，阿里推出“通義”系列大模型，核心模型通過“魔搭”社區(qū)向全球開發(fā)者開源開放，推出“飛天智算平臺”提升 AI 訓(xùn)練效率。通義大模型通過打造業(yè)界首個 AI 統(tǒng)一底座并構(gòu)建大小模型協(xié)同的層次化人工智能體系，解決了大模型通用性與易用性仍欠缺的難題。通義大模型由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成。其中，統(tǒng)一底座是基于 transformer 框架，由統(tǒng)一學(xué)習(xí)范式和模塊化設(shè)計理念構(gòu)成；通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓(xùn)練能耗優(yōu)勢，通義大模型運行速度加快，例如，M6 在相同參數(shù)規(guī)模下的訓(xùn)練能耗僅是 GPT-3 的 1%。目前，阿里通義大模型已廣泛用于電商、設(shè)計、醫(yī)療、法律、金融等領(lǐng)域，助力其降本增效。而在落地應(yīng)用方面，阿里原有的產(chǎn)品資源導(dǎo)致其在 B 端更有優(yōu)勢。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語言模型內(nèi)測。在 4 月 11 日的 2023 阿里云峰會上，阿里巴巴 CEO 張勇表示阿里巴巴所有產(chǎn)品未來將接入通義千問大模型，進(jìn)行全面改造，包括天貓、釘釘、高德地圖、淘寶、優(yōu)酷、盒馬等。阿里將結(jié)合 200 多萬的企業(yè)用戶和輻射的 2-3 億真實活躍用戶資源,把文本作為核心場景鑲嵌到釘釘?shù)娜笕肟冢A(yù)計 2023Q3 推送給部分 B 端客戶的企業(yè)釘。

通義-M6 屬于多模態(tài)模型，覆蓋文本和語音模態(tài)，在短時間內(nèi)高速發(fā)展，并實現(xiàn)架構(gòu)、模態(tài)和任務(wù)統(tǒng)一。通義-M6（英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer，6 個 M，簡稱 M6）包括圖文生成，圖文理解，多模態(tài)對話，運動預(yù)測，運動生成，語音理解，語音生成，多模態(tài)檢測和分割。通義-M6 已經(jīng)從 2020 年 6 月的 3 億參數(shù)基礎(chǔ)模型逐漸發(fā)展到 2021 年 10 月的 10 萬億參數(shù)全球最大預(yù)訓(xùn)練模型再到 2022 年 1 月的業(yè)界首個通用統(tǒng)一大模型 M6-OFA。2020 年 1 月，阿里巴巴達(dá)摩院啟動中文多模態(tài)預(yù)訓(xùn)練模型 M6 項目，同年 6 月推出 3 億參數(shù)的基礎(chǔ)模型。2021 年 1 月，模型參數(shù)規(guī)模到達(dá)百億，已經(jīng)成為世界上最大的中文多模態(tài)模型。2021 年 3 月，千億參數(shù)模型 KDD2021 發(fā)布，與 10B 模型相比：①訓(xùn)練損失減少 37%，在許多下游任務(wù)實現(xiàn) SOTA 結(jié)果；②混合精度提亮 90%的效率；③僅需 32 張 v100GPU 即可完成訓(xùn)練。 2021 年 5 月，具有萬億參數(shù)規(guī)模的模型正式投入使用，追上了谷歌的發(fā)展腳步。2021 年 10 月，M6 的參數(shù)規(guī)模擴(kuò)展到 10 萬億，成為當(dāng)時全球最大的 AI 預(yù)訓(xùn)練模型。 2022 年 1 月，業(yè)界首個通用的統(tǒng)一大模型 M6-OFA 發(fā)布。

AliceMind 是 NLP 的深度語言模型體系，以通用預(yù)訓(xùn)練語言模型 StructBERT 為基礎(chǔ)，拓展到超大的領(lǐng)域模型、多語言、多領(lǐng)域、多模態(tài)方向，可用于結(jié)構(gòu)化、生成式、知識驅(qū)動等應(yīng)用。AliceMind, 取名來自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo)，是阿里達(dá)摩院機(jī)器智能技術(shù)實驗室傾力打造的具有領(lǐng)先性和系統(tǒng)化的深度語言模型體系。AliceMind 的核心應(yīng)用場景有：文本標(biāo)簽分類、序列標(biāo)注、智能中文生成（如商品描述寫作推薦、小說續(xù)寫、古詩生成、菜譜生成等）、多模態(tài)問答（如 VQA，圖片問答）、問答對自動生成等。Alicemind 已經(jīng)服務(wù)阿里內(nèi)部和外部客戶幾百個場景。

通義-視覺屬于 CV 模型，覆蓋圖像，視頻模態(tài)。通義-視覺大模型自下往上分為底層統(tǒng)一算法架構(gòu)、中層通用算法和上層產(chǎn)業(yè)應(yīng)用，由兩個基礎(chǔ)模型構(gòu)成，能夠?qū)崿F(xiàn)視頻處理、視覺問答、視覺算數(shù)等多種算法，在電商、交通、自動駕駛等領(lǐng)域發(fā)揮作用。

1.2 算力

2022 年，阿里云推出全棧智能計算解決方案“飛天智算平臺”，并啟動兩座超大規(guī)模智算中心，為科研、公共服務(wù)和企業(yè)機(jī)構(gòu)提供強(qiáng)大的智能計算服務(wù)，可將計算資源利用率提高 3 倍以上，AI 訓(xùn)練效率提升 11 倍，推理效率提升 6 倍。飛天智算平臺源于阿里巴巴內(nèi)部廣泛實踐，也源于廣泛的產(chǎn)業(yè)智能實踐。目前，該平臺正在支撐建設(shè)兩座超大規(guī)模智算中心。張北智算中心建設(shè)規(guī)模為 12 EFLOPS（每秒 1200 億億次浮點運算）AI 算力。在云端，張北智算中心支撐 AI 預(yù)訓(xùn)練大模型、AI Earth、數(shù)字人等前沿 AI 應(yīng)用，將成為全球最大的智算中心。烏蘭察布智算中心建設(shè)規(guī)模為 3 EFLOPS（每秒 300 億億次浮點運算）AI 算力，位于“東數(shù)西算”內(nèi)蒙古樞紐節(jié)點，采用自然風(fēng)冷、AI 調(diào)溫等綠色技術(shù)，實現(xiàn)綠色低碳。

智能計算不同于通用型計算，需要海量數(shù)據(jù)對 AI 模式進(jìn)行訓(xùn)練，算力被損耗在數(shù)據(jù)遷移、同步等環(huán)節(jié)，千卡以上規(guī)模的算力輸出最低往往僅有 40%左右。這導(dǎo)致了智能算力成本高昂，制約了產(chǎn)業(yè)發(fā)展。阿里云通過體系化的技術(shù)創(chuàng)新，改變了智能計算的損耗難題，將千卡并行計算效率提升至 90%以上。在網(wǎng)絡(luò)技術(shù)上：阿里云采用高性能 RDMA 網(wǎng)絡(luò)，實現(xiàn)端對端最低 2 微秒延遲。在通信技術(shù)上：阿里云自研的無阻塞通信技術(shù)，讓計算過程中的數(shù)據(jù)交換速度提升了 5 倍以上。在存儲技術(shù)上：自研的 IO 加速器讓數(shù)據(jù)存取實現(xiàn)最高 10 倍性能提升。在大數(shù)據(jù) AI 開發(fā)層：阿里云提供分布式訓(xùn)練框架，并通過 API 對分布式策略進(jìn)行自動組合和調(diào)優(yōu)，將訓(xùn)練效率提升了 11 倍以上。一站式 AI 計算開發(fā)服務(wù)：阿里云為用戶提供了一站式的通用推理優(yōu)化工具，對算法模型進(jìn) 行量化、剪枝、稀疏化、蒸餾等操作，將推理效率提升 6 倍以上。

阿里研發(fā)出高質(zhì)量的大模型壓縮技術(shù)，快速匹配客戶計算資源。達(dá)摩院推出了大模型落地技術(shù) S4（Sound、 Sparse、Scarce、Scale）框架，就包含了各種微調(diào)算法和模型壓縮算法，將稀疏化等技術(shù)應(yīng)用到百億量級的大模型中。基于這一技術(shù)，阿里的 270 億參數(shù)語言大模型 PLUG 在壓縮率達(dá) 99%的情況下，多項任務(wù)的精度損失在 1%以內(nèi)。這意味著百億參數(shù)大模型也可能在幾乎不損失精度的情況下進(jìn)行稀疏化，最終實現(xiàn)單卡運行。

另一方面，基于“通用大模型+行業(yè) knowhow”的方式迭代模型。通用大模型基于“大一統(tǒng)”技術(shù)，預(yù)訓(xùn) 練時就已經(jīng)具備了很強(qiáng)的理解和生成能力，只需再針對特定任務(wù)進(jìn)行簡單微調(diào)。即先打造一個基礎(chǔ)大模型，再繼續(xù)訓(xùn)練得到領(lǐng)域模型，最后通過微調(diào)構(gòu)建具體行業(yè)任務(wù)模型。通義大模型的架構(gòu)設(shè)計將這一過程做得更快且更高效。目前，通過部署超大模型的輕量化及專業(yè)模型版本，通義大模型已在超過 200 個場景中提供服務(wù)，實現(xiàn)了 2%-10%的應(yīng)用效果提升。比如，通義大模型在淘寶服飾類搜索場景中實現(xiàn)了以文搜圖的跨模態(tài)搜索、在 AI 輔助審判中司法卷宗的事件抽取、文書分類等場景任務(wù)中實現(xiàn) 3～5%的應(yīng)用效果提升、在開放域人機(jī)對話領(lǐng)域通過建立初步具備“知識、情感以及個性、記憶”的中文開放域?qū)υ挻竽Ｐ蛯崿F(xiàn)了主動對話、廣泛話題、緊跟熱點等對話體驗。

1.3 平臺

2022 年 11 月，阿里巴巴達(dá)摩院與中國計算機(jī)學(xué)會開源發(fā)展委員會共同推出人工智能模型開源社區(qū)“魔搭” （Model Scope），首批合作方還包括瀾舟科技、智譜 AI、深勢科技、中國科學(xué)技術(shù)大學(xué)等多家科研機(jī)構(gòu)，旨在打造下一代開源的模型即服務(wù)共享平臺，致力降低 AI 應(yīng)用門檻。 ModelScope Library 為模型貢獻(xiàn)者提供了必要的分層 API，以便將來自 CV、NLP、語音、多模態(tài)以及科學(xué) 計算的模型集成到 ModelScope 生態(tài)系統(tǒng)中。所有這些不同模型的實現(xiàn)都以一種簡單統(tǒng)一訪問的方式進(jìn)行封裝，用戶只需幾行代碼即可完成模型推理、微調(diào)和評估。同時，靈活的模塊化設(shè)計使得在必要時也可以自定義模型訓(xùn)練推理過程中的不同組件。除了包含各種模型的實現(xiàn)之外，ModelScope Library 還支持與 ModelScope 后端服務(wù)進(jìn)行必要的交互，特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進(jìn)了模型和數(shù)據(jù)集的管理在后臺無縫執(zhí)行，包括模型數(shù)據(jù)集查詢、版本控制、緩存管理等。當(dāng)前，魔搭社區(qū)收錄模型共 775 個，其中中文模型約 300 個，主要通過大模型幫助開發(fā)者提取、抽象知識，通過下游調(diào)優(yōu)，將下游目標(biāo)精確化，從而快速形成針對行業(yè)的解決模型，解決實際應(yīng)用問題。

1.4 應(yīng)用

通義千問將陸續(xù)接入阿里巴巴生態(tài)的所有商業(yè)應(yīng)用中，如企業(yè)通訊、智能語音助手、電子商務(wù)、搜索、導(dǎo) 航、娛樂等，從而進(jìn)一步提升用戶體驗。憑借其中英雙語能力，通義千問將首先部署于阿里巴巴的數(shù)碼協(xié)同辦公和應(yīng)用開發(fā)平臺釘釘，以及物聯(lián)網(wǎng)智能家居終端機(jī)天貓精靈上。通義千問賦能釘釘：讓職場溝通更高效。例如，釘釘將能夠總結(jié)會議紀(jì)要、將會議對話生成文字會議記錄、撰寫電子郵件，以及僅用簡單輸入就可創(chuàng)建業(yè)務(wù)策劃或推廣方案初稿。用戶還可以透過上傳一張構(gòu)思草圖的圖像，轉(zhuǎn)瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈：與中國用戶更活潑生動地對話。例如，天貓精靈將能夠為兒童創(chuàng)作和講故事、提供健康食譜和旅行建議，或推薦健身背景音樂等。從應(yīng)用的角度，在傳統(tǒng) APP 中，因為各業(yè)務(wù)邏輯上的不同，比如淘寶與餓了么，飛豬與高德打車，APP 間很難整合，強(qiáng)行整合反而會帶來產(chǎn)品使用復(fù)雜度大幅增加，用戶體驗下降。但如果統(tǒng)一接入到通義千問中，參考智能座艙的語音助手，其更強(qiáng)的理解能力將使得交互邏輯變得非常簡單，用戶可以像詢問生活助手一樣詢問通義千問來完成業(yè)務(wù)交互，不再需要學(xué)習(xí)操作邏輯，阿里生態(tài)中的家庭終端入口將實現(xiàn)統(tǒng)一。

圖像理解和“文生圖（text-to-image）”等多模態(tài)能力也將很快添加到通義千問模型中，為用戶提供更具吸引力的 AI 功能。阿里云智能首席技術(shù)官周靖人表示：“語言大模型支持下的生成式 AI 正迎來全新的發(fā)展階段。在新 AI 時代，我們憑借可靠的公有云基礎(chǔ)設(shè)施和久經(jīng)驗證的 AI 能力，為客戶和廣大社會創(chuàng)造價值。我們正見證 AI 發(fā)展的新范式，云和 AI 模型在其中發(fā)揮至關(guān)重要的作用。我們致力于讓這種范式更普惠，希望以此促進(jìn) 各行各業(yè)的數(shù)智化轉(zhuǎn)型，助力提高企業(yè)生產(chǎn)力，擴(kuò)展專業(yè)知識和能力，并通過創(chuàng)新釋放更大的機(jī)遇?！蓖x千問基于阿里巴巴自研的“通義”預(yù)訓(xùn)練模型框架，其統(tǒng)一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年，阿里云推出開源“模型即服務(wù)”（Model-as-a-Service）平臺“魔搭”（ModelScope），開放了數(shù)以百計 AI 模型，包括面向全球開發(fā)者和研究人員的通義“文生圖”模型。目前“魔搭”小區(qū)擁有超過 100 萬活躍用戶，提供 800 多個模型，模型總下載量超 1600 萬次。

2、百度

百度是國內(nèi)領(lǐng)先布局 AI 領(lǐng)域的科技大廠，也是我國最早發(fā)布知識增強(qiáng)大語言模型產(chǎn)品的企業(yè)，其在 AI 領(lǐng) 域累計投入研發(fā)總額超過千億元,專利數(shù)量連續(xù)五年居全國第一。2010 年，百度成立了人工智能自然語言處理部,是中國最早布局 AI 的企業(yè)之一。2012 年,百度的 AI 戰(zhàn)略已經(jīng)初步成型,陸續(xù)成立了深度學(xué)習(xí)研究院 IDL、人工智能實驗室。2014 年，百度開始涉足智能駕駛領(lǐng)域,先后推出了深度語音系統(tǒng)、百度大腦、度秘、 Apollo 自動駕駛平臺等技術(shù)體系,涉及自然語言處理、機(jī)器翻譯、語音、視覺、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識圖譜等核心技術(shù)。2016 年 9 月，百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學(xué)習(xí)等技術(shù)于一體的百度大腦,并且每隔一段時間就會進(jìn)行迭代,合作伙伴可以直接調(diào)用百度 AI 的核心能力。同年，百度主導(dǎo)的深度學(xué)習(xí)框架 PaddlePaddle(飛槳)上線,涵蓋了深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā) 套件和豐富的工具組件,填補(bǔ)了中國開源深度學(xué)習(xí)框架的空白。2017 年開始,百度就開始整合人工智能體系,在 2019 年下半的一次架構(gòu)調(diào)整后,王海峰開始統(tǒng)管 AIG、ACG 和 TG 三塊業(yè)務(wù)，百度 AI 的打法也進(jìn)一步清晰,云計算被定義為智能基礎(chǔ)設(shè)施的底座,同時將人工智能和底層技術(shù)能力灌輸?shù)降鬃?進(jìn)而成為賦能各行各業(yè)的“動力工廠”。2020 年，百度智能云確立了“以云計算為基礎(chǔ),以人工智能為抓手,聚焦重要賽道”的新戰(zhàn)略,選擇智慧城市、智慧金融、智慧醫(yī)療、智能制造、智慧能源等為重要賽道,并屢屢簽下數(shù)億級別的訂單。2021 年初,百度再次夯實了自身的人工智能戰(zhàn)略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底，百度智能云推出了全棧自研的 AI 基礎(chǔ)設(shè)施“百度 AI 大底座”，其包括“芯片–框架–模型”三層技術(shù)棧，在各個層面都擁有關(guān)鍵自研技術(shù)和領(lǐng)先產(chǎn)品，分別對應(yīng)昆侖芯、飛槳（PaddlePaddle）、文心大模型。百度 AI 大底座對各層的技術(shù)棧進(jìn)行了全棧融合、系統(tǒng)優(yōu)化，完成了云和智的技術(shù)一體化建設(shè)，可以實現(xiàn)對大模型訓(xùn)練的端到端優(yōu)化和加速。

2.1 模型

文心大模型架構(gòu)分為“基礎(chǔ)+任務(wù)+行業(yè)”三級模型?；A(chǔ)大模型聚焦技術(shù)方向的技術(shù)挑戰(zhàn)、通用性、泛化性探索；任務(wù)大模型深入理解任務(wù)特性，構(gòu)建預(yù)訓(xùn)練算法、訓(xùn)練數(shù)據(jù)集，打造緊貼任務(wù)的模型能力；行業(yè)大模型深度融合行業(yè)數(shù)據(jù)與知識特性，構(gòu)建更適配行業(yè)的模型底座?；A(chǔ)大模型支撐任務(wù)與行業(yè)大模型的建設(shè)，任務(wù)和行業(yè)大模型結(jié)合真實場景與數(shù)據(jù)反哺基礎(chǔ)大模型優(yōu)化。目前，文心大模型已經(jīng)建設(shè)了 36 個大模型，其中基礎(chǔ)大模型包含：NLP（自然語言處理）大模型、CV（計算機(jī)視覺）大模型、跨模態(tài)大模型，任務(wù)大模型包含對話、搜索、信息抽取、生物計算等多個典型任務(wù)，行業(yè)大模型包含與來自 8 個行業(yè)的頭部企業(yè)或機(jī)構(gòu)共建的 11 個行業(yè)大模型。

2.1.1 文心 NLP 大模型

文心 NLP 大模型發(fā)展歷程有三條主線，1）是文心 ERNIE，百度發(fā)布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型，并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平，以及基于層次化多任務(wù)學(xué)習(xí)的文心 ERNIE 3.0 Zeus。同時為了進(jìn)一步降低落地門檻，出現(xiàn)了效率高、泛化能力強(qiáng)的輕量級大模型，比如文心 ERNIE 3.0 Tiny。2）對話生成大模型文心 PLATO 的發(fā)布，對話的流暢性得到了很大提升。3）文心 ERNIE 在跨模態(tài)、跨語言以及長文檔、圖模型等方面獲得了非常好的發(fā)展，在各種榜單尤其是視覺語言相關(guān)的榜單上獲得第一百，比如文心 ERNIE-ViLG 2.0，該模型可以生成語義更相關(guān)、質(zhì)量更高的圖片。文心一言整合了過往關(guān)鍵技術(shù)，在文心知識增強(qiáng)大模型 ERNIE 及對話大模型 PLATO 的基礎(chǔ)上研發(fā)，基于飛槳深度學(xué)習(xí)平臺訓(xùn)練和部署，其關(guān)鍵技術(shù)包括，有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示、知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)。前三項是這類大語言模型都會采用的技術(shù)，在 ERNIE 和 PLATO 模型中已經(jīng)有應(yīng)用和積累，文心一言中又進(jìn)行了進(jìn)一步強(qiáng)化和打磨，做到了更懂中文、更懂中國文化、更懂中國的使用場景；后三項則是百度已有技術(shù)優(yōu)勢的再創(chuàng)新。

ERNIE 3.0 系列模型（ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus）有四大特點：從大規(guī)模知識圖譜和海量無結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)，突破異構(gòu)數(shù)據(jù)統(tǒng)一表達(dá)的瓶頸問題。同時輸入大規(guī)模圖譜和相應(yīng)無標(biāo)注、無結(jié)構(gòu)化的文本，通過文本的 Mask，能夠推理這個知識圖譜里的關(guān)系，從而使這個模型具有知識推理能力。

融合了自編碼和自回歸的結(jié)構(gòu)，使模型既可以做語言理解，也可以做語言生成。在做語言理解時，模型擁有上下文相關(guān)的信息，從而做語言理解。在生成的時候，由于模型只看到了上文，所以只能基于自回歸的方式學(xué)習(xí)。因此，在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。

基于持續(xù)學(xué)習(xí)框架，從不同任務(wù)中持續(xù)學(xué)習(xí)。不斷從不同的數(shù)據(jù)和知識上學(xué)習(xí)，而不斷地構(gòu)建新任務(wù)，比如文本分類任務(wù)、問答任務(wù)、完形填空任務(wù)等。大模型從不同任務(wù)中持續(xù)學(xué)習(xí)，使能力得到持續(xù)提升，擁有更多知識。為了進(jìn)一步學(xué)習(xí)特定任務(wù)的相關(guān)知識，ERNIE 3.0 Zeus 提出了層次化提示（Prompt）學(xué)習(xí)技術(shù)。在數(shù)據(jù)構(gòu) 造時通過層次化的 Text Prompt 庫將百余種不同的任務(wù)統(tǒng)一組織成自然語言的形式，和海量無監(jiān)督文本以及百度知識圖譜聯(lián)合學(xué)習(xí)。此外訓(xùn)練過程引入了層次化的 Soft Prompt 建模了不同任務(wù)之間的共性與特性，進(jìn)一步提升了模型對于不同下游任務(wù)的建模能力。此外，通過持續(xù)學(xué)習(xí)對百余種不同形式的任務(wù)數(shù)據(jù)，實現(xiàn)了任務(wù)知識增強(qiáng)，顯著提升了模型的零樣本/小樣本學(xué)習(xí)能力。

PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一項關(guān)鍵技術(shù)，主要作用是多輪對話，其發(fā)展經(jīng)歷了三個階段。1）2019 年 10 月，百度首次發(fā)布了 PLATO 對話模型，其是全球首個大規(guī)模變量對話模型，刷新開放領(lǐng)域?qū)υ捫Ч?）2020 年 7 月，發(fā)布 PLATO-2，其是基于課程學(xué)習(xí)的對話生成模型，進(jìn)一步刷新了開放領(lǐng)域?qū)υ捫Ч?020 年 10 月，PLATO-2 斬獲全球?qū)υ捈夹g(shù)競賽 DSTC-9 五項冠軍。3）2021 年 9 月，發(fā)布 PLATO-XL，其是首個百億參數(shù)中英對話預(yù)訓(xùn)練生成模型。 PLATO 在預(yù)訓(xùn)練模型之上，對對話能力進(jìn)行增強(qiáng)，讓對話具有人格屬性，包括人設(shè)穩(wěn)定性、知識增強(qiáng)、跨模態(tài)對話、情感撫慰、主動對話、長期記憶等。同時，PLATO 也已應(yīng)用到百度的各個產(chǎn)品線，比如：小度聊天，百度推出的虛擬人對話，領(lǐng)域?qū)υ挕Ｍ瑫r，百度也通過 UNIT 平臺，對外輸出對話技術(shù)。

2019 年，百度首次發(fā)布了 PLATO 對話模型，首次創(chuàng)新性的提出了“隱變量”的概念。開放型對話具有一對多的特點，用戶輸入 query 后，系統(tǒng)可以有多種多樣的回復(fù)。每個回復(fù)有不同的性質(zhì)，比如，輸入“我得健身了，不能放縱了”?？梢越o用戶建議、詢問、質(zhì)詢、質(zhì)疑等類型的回復(fù)。除了這種關(guān)系外，還會有對話背后的場景信息，這會導(dǎo)致開放型對話一對多的關(guān)系，這會導(dǎo)致模型學(xué)習(xí)很困難。如果針對一個輸入，有特定的輸出，模型的學(xué)習(xí)會相對簡單。但當(dāng)模型的輸出不確定，甚至有多種多樣的輸出，這就會導(dǎo)致模型學(xué)習(xí)復(fù)雜。針對這一問題，我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模，而是一個隱式建模輸入和每一個輸出的對應(yīng)關(guān)系。這就會讓原來的輸入和輸出一對多的關(guān)系，轉(zhuǎn)化為一對一的關(guān)系。通過在輸入增加 soft token 的方式，讓 transformer 建立輸入和輸出之間的關(guān)系。Transformer 不是獨立的編碼器和解碼器的方式，我們選擇了使用編碼器和解碼器共享參數(shù)的方式來實現(xiàn)即 unified transformer。預(yù)訓(xùn)練分為兩個階段，先根據(jù)輸入和輸出預(yù)測隱變量的分布，然后從分布中采樣隱變量，將其加入輸入中再去學(xué)習(xí)根據(jù)隱變量和輸入預(yù)測回答的能力。

2021 年，百度推出 PLATO-XL，將模型的規(guī)模推進(jìn)至 110 億，模型有 72 層。同時引入了 role embedding 的特征來感知角色信息。在對話上文中，既有用戶的輸入，也有系統(tǒng)的輸入，使用 role embedding 來區(qū)分用戶和系統(tǒng)的角色。在原有 transformer 模型三個特征,token、sentence type、position 的基礎(chǔ)上，模型新增了 role embedding 的信息，能讓模型更好的掌控角色。

2.1.2 文心 CV 大模型

文心 CV 大模型基于領(lǐng)先的視覺技術(shù)，利用海量的圖像、視頻等數(shù)據(jù)，為企業(yè)和開發(fā)者提供強(qiáng)大的視覺基礎(chǔ)模型，以及一整套視覺任務(wù)定制與應(yīng)用能力。百度文心發(fā)布了 VIMER 系列的 CV 大模型，視覺自監(jiān)督預(yù)訓(xùn)練大模型 VIMER-CAE 創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預(yù)測任務(wù)”的預(yù)訓(xùn)練框架，在圖像分類、目標(biāo)檢測、語義分割等經(jīng)典下游任務(wù)上刷新 SOTA 結(jié)果。在此之上，多任務(wù)學(xué)習(xí)模型 VIMER-UFO 2.0 可抽取輕量級小模型，兼顧大模型效果和小模型推理性能，單模型覆蓋 20 多個 CV 基礎(chǔ)任務(wù)，在 28 個公開測試集上效果刷新 SOTA。端到端文檔 OCR 表征學(xué)習(xí)預(yù)訓(xùn)練模型 VIMER-StrucTexT 2.0 解決了訓(xùn)練數(shù)據(jù)匱乏和傳統(tǒng) OCR+NLP 鏈路過長導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題，能夠廣泛應(yīng)用于各行各業(yè)行的文檔、卡證、票據(jù)等圖像文字識別和結(jié)構(gòu)化理解。 VIMER-CAE 基于自監(jiān)督圖像掩碼建模原理，創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預(yù)測任務(wù)” 的預(yù)訓(xùn)練框架，對編碼模塊和解碼模塊進(jìn)行分離，通過編碼模塊對輸入的圖像塊進(jìn)行特征表達(dá)，并利用隱式上下文回歸和解碼模塊對輸入圖像的掩碼塊進(jìn)行特征表達(dá)恢復(fù)，在圖像掩碼建模問題上提高了預(yù)訓(xùn)練模型的圖像表征能力?；?VIMER-CAE 的預(yù)訓(xùn)練模型在下游各類圖像任務(wù)上取得了明顯的效果提升，其中在目標(biāo)檢測、實例分割、語義分割等任務(wù)的指標(biāo)上達(dá)到最優(yōu)水平。

VIMER-UFO 2.0 技術(shù)方案的主要內(nèi)容包括：1）All in One——行業(yè)最大 170 億參數(shù)視覺多任務(wù)模型，覆蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+ CV 基礎(chǔ)任務(wù)，單模型 28 個公開測試集效果 SOTA；2） One for All——首創(chuàng)針對視覺多任務(wù)的超網(wǎng)絡(luò)與訓(xùn)練方案，支持各類任務(wù)、各類硬件的靈活部署，解決大模型參數(shù)量大，推理性能差的問題。針對大模型的開發(fā)和部署問題，VIMER-UFO 給出了 One for All 的解決方案，通過引入超網(wǎng)絡(luò)的概念，超網(wǎng)絡(luò)由眾多稀疏的子網(wǎng)絡(luò)構(gòu)成，每個子網(wǎng)絡(luò)是超網(wǎng)絡(luò)中的一條路徑，將不同參數(shù)量、不同任務(wù)功能和不同精度的模型訓(xùn)練過程變?yōu)橛?xùn)練一個超網(wǎng)絡(luò)模型。訓(xùn)練完成的 VIMER-UFO One for All 超網(wǎng)絡(luò)大模型即可針對不同的任務(wù)和設(shè)備低成本生成相應(yīng)的可即插即用的小模型，實現(xiàn) One for All Tasks 和 One for All Chips 的能力。

VIMER-UFO 2.0 單個模型一套參數(shù)，在不進(jìn)行下游 fine-tuning 的情況下，在 28 個主流的 CV 公開數(shù)據(jù) 集上取得了 SOTA 的結(jié)果。同時，盡管 VIMER-UFO 2.0 大模型參數(shù)量達(dá)到了 170 億，得益于 Task-MoE 稀疏結(jié)構(gòu)，每個任務(wù)推理時只需激活部分參數(shù)，計算量相當(dāng)于 6 億參數(shù)模型規(guī)模，加速比接近 30 倍。

VIMER-StrucTexT 2.0 是端到端文檔 OCR 表征學(xué)習(xí)預(yù)訓(xùn)練模型，首次創(chuàng)新性地提出“單模態(tài)圖像輸入、多模態(tài)表征學(xué)習(xí)”預(yù)訓(xùn)練框架，僅通過單一文檔圖像的輸入，就能讓模型充分捕獲語義和結(jié)構(gòu)信息。經(jīng)過大規(guī) 模文檔圖像數(shù)據(jù)充分學(xué)習(xí)后的預(yù)訓(xùn)練模型，顯著提高文檔理解全景應(yīng)用任務(wù)效果，包括文檔圖像分類、文檔版式分析、表格結(jié)構(gòu)解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時解決了訓(xùn)練數(shù)據(jù)匱乏和傳統(tǒng) OCR + NLP 鏈路過長導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題，能夠廣泛應(yīng)用于各行各業(yè)行文檔、卡證、票據(jù)等圖像文字識別和結(jié)構(gòu)化理解。

VIMER-UMS (Unified Multi-Source Pre-training for Product)，是百度基于海量的互聯(lián)網(wǎng)商品圖文信息提出的多源信息統(tǒng)一建模的商品圖文表征預(yù)訓(xùn)練模型，也是行業(yè)首個統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品多模態(tài)預(yù)訓(xùn)練模型。針對圖文多模態(tài)建模中模態(tài)信息殘缺問題，通過構(gòu)建視覺特征與多源圖文對比的多任務(wù)學(xué) 習(xí)框架，實現(xiàn)統(tǒng)一圖文表征預(yù)訓(xùn)練同時覆蓋商品視覺單模態(tài)、多模態(tài)識別與檢索任務(wù)，可以顯著改善商品視覺檢索和商品多模態(tài)檢索體驗。

VIMER-UMS 基于端到端 Transformer 訓(xùn)練方式，通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼，提供多源商品信息的統(tǒng)一表達(dá)結(jié)構(gòu)。由于現(xiàn)有主流多模態(tài)預(yù)訓(xùn)練方法依靠語言作為弱監(jiān)督關(guān)聯(lián)信號，視覺表征能力存在退化現(xiàn)象。為了解決該問題，VIMER-UMS 通過建立視覺與多源圖文對比多任務(wù)預(yù)訓(xùn)練，實現(xiàn)視覺特征、圖文特征的統(tǒng)一增強(qiáng)表征。

2.1.3 文心跨模態(tài)大模型

文心·跨模態(tài)大模型基于知識增強(qiáng)的跨模態(tài)語義理解關(guān)鍵技術(shù)，可實現(xiàn)跨模態(tài)檢索、圖文生成、圖片文檔的信息抽取等應(yīng)用的快速搭建，落實產(chǎn)業(yè)智能化轉(zhuǎn)型的 AI 助力。 ERNIE-ViL 是業(yè)界首個融合場景圖知識的多模態(tài)預(yù)訓(xùn)練模型。ERNIE-ViL 將場景圖知識融入到視覺-語言模型的預(yù)訓(xùn)練過程，學(xué)習(xí)場景語義的聯(lián)合表示，顯著增強(qiáng)了跨模態(tài)的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達(dá)式理解、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 5 項典型多模態(tài)任務(wù)中刷新了世界最好效果。并在多模態(tài)領(lǐng)域權(quán)威榜單視覺常識推理任務(wù)（VCR）上登頂榜首。基于文本中解析出的場景圖，ERNIE-ViL 提出了三個多模態(tài)場景圖預(yù)測任務(wù)：物體預(yù)測，隨機(jī)選取圖中的一部分物體，然后對其在句子中對應(yīng)的詞進(jìn)行掩碼和預(yù)測；屬性預(yù)測，對于場景圖中的屬性-物體組合，隨機(jī)選取一部分詞對其中屬性詞進(jìn)行掩碼和預(yù)測；關(guān)系預(yù)測，對于場景圖中的物體-關(guān)系-物體三元組，對其中的關(guān)系詞進(jìn)行掩碼和預(yù)測。

ERNIE-ViL 在場景圖里加入知識，通過它的文字信息去構(gòu)建場景圖，使得模型能夠理解圖中細(xì)粒度的語義。舉例而言，下圖中有 6 個人，但只有 5 個人運動員，因為其中一個是裁判，模型要能依據(jù)運動場景進(jìn)行判斷，才能給出正確答案。

文心 ERNIE-ViLG 2.0 采用基于知識增強(qiáng)算法的混合降噪專家建模，是全球首個知識增強(qiáng)的 AI 作畫大模型，也是目前全球參數(shù)規(guī)模最大的 AI 作畫大模型，在文本生成圖像公開權(quán)威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了當(dāng)前該領(lǐng)域的世界最好效果，并在語義可控性、圖像清晰度、中國文化理解等方面展現(xiàn)出了顯著優(yōu)勢。文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴(kuò)散模型學(xué)習(xí)，強(qiáng)化文圖生成擴(kuò)散模型對于語義的精確理解，以提升生成圖像的可控性和語義一致性。同時，ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專家模型來提升模型建模能力，讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò)，從而實現(xiàn)更加細(xì)致的降噪任務(wù)建模，提升生成圖像的質(zhì)量。

2.2 算力

百度早在 2011 年就開始布局 AI 芯片領(lǐng)域，并逐步建立 AI 技術(shù)的全棧布局，拓展了全面的 AI 應(yīng)用場景。同時，擁有數(shù)億用戶規(guī)模的產(chǎn)品百度搜索，以及服務(wù)各個行業(yè)的百度智能云等。同時，百度依托昆侖芯科技前身為百度智能芯片及架構(gòu)部，昆侖芯是百度自主研發(fā)的云端通用 AI 芯片，目前，昆侖芯 1、2 代已實現(xiàn)量產(chǎn)，并達(dá)到數(shù)萬片規(guī)模部署。昆侖芯 3 代將于 2024 年初量產(chǎn)。依托深厚技術(shù)沉淀，昆侖芯科技核心團(tuán)隊于 2017 年發(fā)布 100%自研、面向通用 AI 計算的芯片核心架構(gòu)昆侖芯 XPU，并從 AI 落地的實際需求出發(fā)，按照復(fù)雜前沿的人工智能場景需求來迭代架構(gòu)。2018 年至今，昆侖芯云端 AI 芯片已經(jīng)迭代兩代，并實現(xiàn)數(shù)萬片的規(guī)模落地。其中，昆侖芯 1 代已經(jīng)在百度搜索引擎、小度等業(yè)務(wù)中部署超過兩萬片，昆侖芯 2 代也于 2021 年 8 月實現(xiàn)量產(chǎn)，并已在互聯(lián)網(wǎng)、智慧工業(yè)、智慧城市、智算中心、智慧交通、科研等領(lǐng)域?qū)崿F(xiàn)規(guī)?；渴?，服務(wù)來自千行百業(yè) 的不同客戶。

針對大模型，昆侖芯持續(xù)打磨部署優(yōu)化方案，領(lǐng)跑產(chǎn)業(yè)落地。昆侖芯已將大模型的 Transformer 相關(guān)優(yōu)化技術(shù)沉淀為重要基建，優(yōu)化后的性能比原有方案提升 5 倍以上，壓縮顯存 30% 以上。以文生圖大模型為例，昆侖芯已跑通一條端到端優(yōu)化、規(guī)模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數(shù)級增加，同時，圖像生成需要循環(huán)采樣數(shù)十次，產(chǎn)業(yè)落地動輒需要高昂成本的部署集群，嚴(yán)重阻礙了 AIGC 模型大規(guī)模商業(yè)化落地。2022 年第四季度，昆侖芯聯(lián)合客戶，基于飛槳 PaddlePaddle 發(fā)起了端到端聯(lián)合優(yōu)化項目。在 2-3 周內(nèi)，項目組快速完成端到端優(yōu)化，最終實現(xiàn)輸入文本后 2 秒出圖的優(yōu)化效果，性能提升近 8 倍。目前，昆侖芯 AI 加速卡 R200 已在該客戶的大模型場景完成規(guī)模部署，性能數(shù)據(jù)全面超越同系列主流推理卡，基于昆侖芯 AI 加速卡 R200 高效運算與推理能力，綜合優(yōu)化方案，在 dpm-25steps 算法下，利用昆侖芯 AI 加速卡 R200，生成 1024*1024 圖像時的推理速度為 10.89 iters/s，相比同能力的主流推理卡快 20%；昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存，為大規(guī)模參數(shù)提供更大的存儲容量、更高帶寬的內(nèi)存訪問、更穩(wěn)定的性能，生成更高分辨率的圖片，為用戶提供高性價比服務(wù)。

2.3 平臺

百度飛槳是我國首個自主研發(fā)的產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺，飛槳在平臺功能上具備豐富的產(chǎn)業(yè)級模型庫、端到端開發(fā)套件、工具組件，以及零門檻 AI 開發(fā)平臺 EasyDL 和全功能 AI 開發(fā)平臺 BML、學(xué)習(xí)與實訓(xùn)社區(qū) AI Studio，高效支持深度學(xué)習(xí)模型開發(fā)、訓(xùn)練、部署等全流程，降低 AI 技術(shù)應(yīng)用門檻；在生態(tài)上，飛槳推動構(gòu)建了全方位的生態(tài)體系，包括開發(fā)者生態(tài)、教育生態(tài)、企業(yè)生態(tài)、硬件生態(tài)，通過生態(tài)共享共創(chuàng)加速產(chǎn)學(xué)研用協(xié)同創(chuàng)新發(fā)展。

飛槳官方精選產(chǎn)業(yè)算法新增 100 多個，累計超過 600 個，覆蓋計算機(jī)視覺(PaddleCV)、自然語言處理 (PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應(yīng)用領(lǐng)域，超過 95%的用戶使用模型庫。包含經(jīng)過產(chǎn)業(yè) 實踐長期打磨的主流模型，42 個精度與性能平衡的產(chǎn)業(yè)級 PP 系列特色模型，以及文心系列大模型。

飛槳硬件生態(tài)持續(xù)繁榮，包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對飛槳的支持，并主動在開源社區(qū)為飛槳貢獻(xiàn)代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進(jìn)行深入融合適配，并結(jié)合麒麟、統(tǒng) 信、普華操作系統(tǒng)，以及昆侖芯、海光、寒武紀(jì)、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度融合，與浪潮、中科曙光等服務(wù)器廠商合作形成軟硬一體的全棧 AI 基礎(chǔ)設(shè)施。當(dāng)前已經(jīng)適配飛槳的芯片或 IP 廠商超過 40 家，處于業(yè)界領(lǐng)先地位。2022 年 5 月，飛槳聯(lián)合硬件生態(tài)伙伴發(fā)布“硬件生態(tài)共創(chuàng)計劃”，在聯(lián)合研發(fā)、資源共享、聯(lián)合授權(quán)、培訓(xùn)賦能等多個維度全面合作。2022 年 11 月，飛槳“硬件生態(tài)共創(chuàng)計劃”成員已經(jīng)從 13 家增加至 28 家。

飛槳平臺服務(wù)規(guī)?？焖贊B透，技術(shù)能力創(chuàng)新卓著。截至 2022 年 11 月，飛槳已凝聚國內(nèi)規(guī)模最大的開發(fā)者群體（535 萬）、服務(wù) 20 萬企事業(yè)單位，基于飛槳平臺創(chuàng)造出 67 萬個 AI 模型，超越 TensorFlow 和 PyTorch 成為國內(nèi)服務(wù)規(guī)模最為廣泛的框架工具，不斷夯實 AI 工業(yè)大生產(chǎn)的基礎(chǔ)，有力推動了我國實體經(jīng)濟(jì)的高質(zhì)量發(fā)展。百度飛槳從 2016 年經(jīng)歷多年積累、沉淀、探索后，創(chuàng)新成果已經(jīng)逐步涌現(xiàn)。飛槳 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等開發(fā)套件發(fā)布后多次登頂 Papers with Code 和 Github 趨勢榜單，引起業(yè)界高度關(guān)注。此外，針對國內(nèi)市場需求特點，飛槳提供了大量經(jīng)過真實應(yīng)用場景有效驗證的高精度、便捷部署的官方模型庫，相關(guān)算法及 API 更加強(qiáng)調(diào)對中文情境的支持優(yōu)化，能夠廣泛支持國產(chǎn)硬件平臺，技術(shù)能力優(yōu) 勢逐步凸顯，相較于 TensorFlow 和 PyTorch 成為更滿足國內(nèi)技術(shù)應(yīng)用需求的開發(fā)框架。

2.4 應(yīng)用

百度文心大模型積極拓展內(nèi)外部應(yīng)用，目前面向公眾和企業(yè)用戶同時進(jìn)行開放測試。內(nèi)部應(yīng)用層面，文心大模型已經(jīng)率先應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內(nèi)部重要產(chǎn)品上。百度在 5 月 25 日的移動生態(tài)大會上展示了全新的 AI 搜索體系。1）極致滿足：搜索結(jié)果不再是簡單的文本段落，而是多模態(tài)的，包括相關(guān)的圖片和視頻，省去了用戶的瀏覽和總結(jié)時間。對于那些相對簡單但沒有現(xiàn)成答案的問題，AI 可以展示邏輯推理和計算能力，直接給出可用的結(jié)果。對于開放的多答案問題，百度 AI 搜索可以整合多個符合要求的答案，并列出引用和選擇依據(jù)，滿足用戶需求。此外，搜索引擎還能自動定位到視頻中相關(guān)內(nèi)容的位置，方便用戶查看。根據(jù)介紹，現(xiàn)在百度搜索每天有 70%的問答需求能在首條搜索結(jié)果中得到滿足，這一比例在半年前只有 40%，這種改進(jìn)進(jìn)一步提升了需求，現(xiàn)在每天有超過 3000 萬次的新增問答需求。2）AI 伙伴：除了提供豐富準(zhǔn)確的搜索結(jié)果，百度還提出了全能的"AI 伙伴"，使人們能夠以最直接的方式獲取人工智能的能力。通過 AI 伙伴，人們可以使用自然語言或語音作為輸入，獲得準(zhǔn)確詳細(xì)的搜索結(jié)果。 AI 伙伴不僅會在生成答案時標(biāo)出重點并列出引用鏈接，還能調(diào)用其他工具和服務(wù)完成任務(wù)，并接受進(jìn)一步追問或指正。AI 伙伴還可以根據(jù)用戶意圖生成圖片、進(jìn)行文案寫作，在不同任務(wù)中扮演具體的角色，如旅行時可以充當(dāng)導(dǎo)游，寫作業(yè)時可以充當(dāng)老師。3）AIBOT：以往人們對搜索引擎結(jié)果的準(zhǔn)確性有所顧慮，因為無論 AI 算法有多準(zhǔn)確，始終只是概率統(tǒng)計的結(jié)果，并不能代表專家意見。為解決這個問題，百度推出了全新的 AIBOT。類似于 ChatGPT 的插件，AIBOT 通過與第三方技術(shù)提供商的合作，使搜索可以自動接入特定能力。目前亮相的 AIBOT 覆蓋了創(chuàng)作、商業(yè)、機(jī)構(gòu)、服務(wù)和品牌等多個領(lǐng)域，它們可以利用專業(yè)領(lǐng)域知識直接回答用戶的問題。

百度文心圍繞大模型產(chǎn)業(yè)應(yīng)用的不同研發(fā)環(huán)節(jié)，面向各階段不同技術(shù)、業(yè)務(wù)背景的開發(fā)者或用戶，打造系列工具平臺與場景化產(chǎn)品。大模型套件：百度文心推出新一代預(yù)訓(xùn)練范式的 NLP 算法定制開發(fā)工具集 ERNIEKit，面向 NLP 工程師，提供全流程大模型開發(fā)與部署工具集，端到端、全方位發(fā)揮大模型效能。包括數(shù)據(jù)標(biāo)注與處理、大模型精調(diào)、大模型壓縮、高性能部署、場景化工具五大模塊能力； AI 開發(fā)平臺：百度 AI 開發(fā)以雙平臺模式驅(qū)動，面向應(yīng)用開發(fā)者或業(yè)務(wù)專家提供零門檻 AI 開放平臺 EasyDL，面向 AI 算法開發(fā)者提供全功能 AI 開發(fā)平臺 BML。EasyDL 使用百度文心 NLP、CV、跨模態(tài)大模型作為訓(xùn)練基座，利用少量數(shù)據(jù)即可獲得理想的模型效果，具有零門檻、高精度、低成本數(shù)據(jù)、超靈活部署四大核心優(yōu)勢。 BML 深度融合文心大模型，提供 Notebook 建模、預(yù)置模型調(diào)參、可視化建模、模型產(chǎn)線建模、Pipeline 建模、實驗管理等功能，兼具性能和性價比；

3、騰訊

騰訊構(gòu)建了“太極機(jī)器學(xué)習(xí)平臺+混元大模型”，同時騰訊啟動了“混元助手”知識增強(qiáng)大語言模型項目。 2016 年，騰訊成立了 AI Lab 實驗室。2022 年 4 月，騰訊對外披露了混元大模型，涉及自然語言處理、計算機(jī) 視覺、多模態(tài)等多個領(lǐng)域。騰訊自研的太極機(jī)器學(xué)習(xí)平臺為混元大模型提供算力，可支持 10TB 級模型訓(xùn)練、 TB 級模型推理計算能力等。騰訊 AI Lab 是騰訊的企業(yè)級 AI 實驗室，于 2016 年 4 月在深圳成立，目前有 100 多位頂尖研究科學(xué)家及 300 多位應(yīng)用工程師。2017 年公司提出了“Make AI Everywhere” 的戰(zhàn)略愿景，和“基礎(chǔ)研究—場景共建—能力開放”的三層 AI 戰(zhàn)略架構(gòu)。作為衡量機(jī)構(gòu)研究實力的重要標(biāo)準(zhǔn)，成立四年多來，騰訊 AI Lab 的基礎(chǔ)研究成果已覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國際頂級 AI 學(xué)術(shù)會議或期刊，發(fā)表論文超過 460 篇，位居國內(nèi)企業(yè)前列。截止 2020 年 3 月，騰訊擁有 AI 全球?qū)＠^ 6500 個，中國專利超過 5000 個。

3.1 模型

2022 年 4 月，騰訊首次披露了混元 AI 大模型研發(fā)進(jìn)展，先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權(quán)威的跨模態(tài)視頻檢索數(shù)據(jù)集榜單中取得第一名，實現(xiàn)跨模態(tài)檢索領(lǐng)域的大滿貫。當(dāng) 月，騰訊混元 AI 大模型又在中文語言理解評測基準(zhǔn) CLUE 分類榜中取得第一名，分?jǐn)?shù)突破了 80.000 分，接近人類語言理解能力，刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態(tài)檢索榜單大滿貫后，取得的又一突破性進(jìn)展，展現(xiàn)了該模型在自然語言處理上的實力。 2022 年 5 月，騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規(guī)模知識圖譜三個榜單同時登頂，一舉打破三項紀(jì)錄。據(jù)了解，CLUE 總榜由分類任務(wù)和閱讀理解任務(wù)構(gòu)成。騰訊混元 AI 大模型在一個月內(nèi)先后實現(xiàn)分類任務(wù)、閱讀理解雙佳績，最終以 84.730 的成績?nèi)〉每偘竦谝弧Ｖ蠡煸?AI 大模型又在多模態(tài)理解領(lǐng)域國際權(quán)威榜單 VCR（Visual Commonsense Reasoning，視覺常識推理）中登頂，兩個單項成績和總成績均位列第一。這是繼在跨模態(tài)檢索領(lǐng)域?qū)崿F(xiàn)大滿貫、CLUE 自然語言理解分類榜及 CLUE 總榜登頂后，混元 AI 大模型的又一重大突破，展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強(qiáng)大實力。

3.2 算力

騰訊發(fā)布大模型算力集群 HCC 大幅提速模型訓(xùn)練。大模型進(jìn)入萬億參數(shù)時代，單體服務(wù)器提供的算力有限，需要將大量服務(wù)器相連，協(xié)同優(yōu)化單機(jī)算力、網(wǎng)絡(luò)架構(gòu)和存儲性能，打造大規(guī)模、分布式的高性能計算集群。以新一代集群為標(biāo)志，基于自研芯片、星星海自研服務(wù)器和分布式云操作系統(tǒng)遨馳，騰訊云正通過軟硬一體的方式，打造面向 AIGC 的高性能智算網(wǎng)絡(luò)，持續(xù)加速全社會云上創(chuàng)新。 2023 年 4 月 14 日，騰訊云發(fā)布新一代 HCC 高性能計算集群，其采用最新一代星星海自研服務(wù)器，搭載 NVIDIA H800 Tensor Core GPU，并基于自研網(wǎng)絡(luò)、存儲架構(gòu)，帶來 3.2T 超高互聯(lián)帶寬 TB 級吞吐能力和千萬級 IOPS。實測結(jié)果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月，騰訊完成首個萬億參數(shù)的 AI 大模型——混元 NLP 大模型訓(xùn)練。在同等數(shù)據(jù)集下，將訓(xùn)練時間由 50 天縮短到 11 天。如果基于新一代集群，訓(xùn) 練時間將進(jìn)一步縮短至 4 天。服務(wù)器單機(jī)性能是集群算力的基礎(chǔ)，新一代集群的單 GPU 卡在不同精度下，支持輸出最高 1979 TFlops 的算力。針對大模型場景，星星海自研服務(wù)器采用 6U 超高密度設(shè)計，相較行業(yè)可支持的上架密度提高 30%；利用并行計算理念，通過 CPU 和 GPU 節(jié)點的一體化設(shè)計，將單點算力性能提升至更高。

此外，新一代集群集成了騰訊云自研的 TACO 訓(xùn)練加速引擎，對網(wǎng)絡(luò)協(xié)議、通信策略、AI 框架、模型編譯進(jìn)行大量系統(tǒng)級優(yōu)化，大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。騰訊太極機(jī)器學(xué)習(xí)平臺自研的訓(xùn)練框架 AngelPTM，也已通過騰訊云 TACO 提供服務(wù)，幫助企業(yè)加速大模型落地。依托分布式云原生的治理能力，騰訊云智算平臺提供 16 EFLOPS 的浮點算力，規(guī)模業(yè)界領(lǐng)先。通過騰訊云的大模型能力和工具箱，企業(yè)可結(jié)合產(chǎn)業(yè)場景數(shù)據(jù)進(jìn)行精調(diào)訓(xùn)練，提升生產(chǎn)效率、快速創(chuàng)建和部署 AI 應(yīng)用。

3.3 平臺

騰訊自研搭建了業(yè)界一流的太極機(jī)器學(xué)習(xí)平臺，致力于讓用戶更加聚焦業(yè)務(wù) AI 問題解決和應(yīng)用，一站式的解決算法工程師在 AI 應(yīng)用過程中特征處理，模型訓(xùn)練，模型服務(wù)等工程問題。結(jié)合對用戶的習(xí)慣理解和功能沉淀，太極在產(chǎn)品層提供數(shù)據(jù)/特征工程，模型訓(xùn)練，模型服務(wù)三塊。閉環(huán)了用戶離線訓(xùn)練到在線服務(wù)的應(yīng)用，包含了不同場景下的數(shù)據(jù)訪問訴求，不同訓(xùn)練模型的訴求，在線服務(wù)可靠性的訴求。算法框架&組件層提供了機(jī) 器學(xué)習(xí)、深度學(xué)習(xí)核心組件?？芍С?10TB 級模型訓(xùn)練、TB 級模型推理和分鐘級模型發(fā)布上線，擴(kuò)展集群規(guī)模則可支持更大的模型訓(xùn)練和推理，為實際業(yè)務(wù)提供大模型的情況下，同時具有很高的性能，達(dá)到行業(yè)領(lǐng)先水平。太極機(jī)器學(xué)習(xí)平臺采用了分布式參數(shù)服務(wù)器架構(gòu)，其是業(yè)界第一梯隊企業(yè)們公認(rèn)的最佳選擇。這種架構(gòu)的特點是，存儲模型參數(shù)和執(zhí)行模型計算，這兩種任務(wù)在分別的服務(wù)器上運行，增加更多服務(wù)器就可以支持更大、計算需求更高的模型。太極機(jī)器學(xué)習(xí)平臺中的參數(shù)服務(wù)器系統(tǒng) AngelPS 也是騰訊自研的成果，現(xiàn)在不僅可以承載 10TB 級模型的訓(xùn)練，對多維特征融合、復(fù)雜模型結(jié)構(gòu)等更高級、更前瞻性的功能也有優(yōu)秀支持。同時太極機(jī)器學(xué)習(xí)平臺還具備超大模型在線推理服務(wù)的能力。推理計算方面，不僅支持常規(guī)的 CPU 計算，還支持復(fù)雜模型的 GPU 計算加速；存儲上，根據(jù)在線推理模型大小，自適應(yīng)選擇小模型本地內(nèi)存加載和大模型 AngelPS 遠(yuǎn)程查詢的部署策略；在線服務(wù)運營上，平臺具備多級容災(zāi)能力，臟模型秒級回滾能力，以及完備的系統(tǒng)和業(yè)務(wù)運行實時指標(biāo)監(jiān)控和報警系統(tǒng)。

太極 AngelPTM 的設(shè)計目標(biāo)是依托太極機(jī)器學(xué)習(xí)平臺，為 NLP、CV 和多模態(tài)、AICG 等多類預(yù)訓(xùn)練任務(wù)提供一站式服務(wù)。其主要由高性能訓(xùn)練框架、通用加速組件和基礎(chǔ)模型倉庫組成。太極 AngelPTM 主要有三大部分：1）高性能訓(xùn)練框架：包含大模型訓(xùn)練框架 ZeRO-Cache，高性能 MOE 組件，以及 3D 并行和自動流水并行策略；2）通用加速組件：包含可減少顯存并提高精度的異構(gòu) Adafactor 優(yōu)化器，可穩(wěn)定 MOE 半精度訓(xùn)練 loss 的 Z_loss 組件，選擇性重計算組件和降低通信代價的 PowerSGD 組件；3）基礎(chǔ)模型倉庫：包含 T5、BERT、GPT 以及 Transformer 等基礎(chǔ)模型。

3.4 應(yīng)用

騰訊 AI Lab 的 AI 技術(shù)也廣泛應(yīng)用在微信、QQ 和騰訊覓影等上百款產(chǎn)品。行業(yè)應(yīng)用上，實驗室研發(fā)出的圍棋 AI「絕藝」屢獲國際賽事冠軍，是科技賦能國粹文化的代表；與王者榮耀研發(fā)的策略協(xié)作型 AI「絕悟」達(dá) 到職業(yè)水平，代表國際水準(zhǔn)的研究能力。布局前沿多模態(tài)數(shù)字人技術(shù)，探索數(shù)字內(nèi)容生成的新可能。實驗室支持的國家級 AI+醫(yī)療標(biāo)桿產(chǎn)品「騰訊覓影」與「騰訊醫(yī)典」也不斷取得技術(shù)突破，「騰訊覓影」從醫(yī)療影像延伸到輔助診療等功能，截止 2018 年 10 月，項目已落地 100 多家全國三甲醫(yī)院，服務(wù)患者近 40 萬人。2020 年，實驗室發(fā)布自研智能顯微鏡及 AI 藥物發(fā)現(xiàn)平臺「云深智藥」，并初步探索 AI+農(nóng)業(yè)智慧溫室項目。

AI + 生命健康：在醫(yī)療領(lǐng)域，騰訊 AI Lab 與北京協(xié)和醫(yī)院共同發(fā)布了具有完全自主知識產(chǎn)權(quán)的便攜式智能化手術(shù)導(dǎo)航系統(tǒng)，實現(xiàn)高精度、便攜式、低成本等特點，就像給臨床醫(yī)生的手術(shù)配上了 GPS，輔助醫(yī)生精準(zhǔn) 定位隱藏在腦組織中的病變。該系統(tǒng)在協(xié)和神經(jīng)外科已成功開展了 50 余例臨床試驗，涉及腦出血、垂體腺瘤、膠質(zhì)瘤、腦膜瘤、顱咽管瘤等多種疾病，臨床初步應(yīng)用取得成功。騰訊 AI Lab 還與邁瑞共同研發(fā)了全自動外周血細(xì)胞形態(tài)學(xué)分析儀，并完成了創(chuàng)新醫(yī)療器械特別審查申請公示，正式進(jìn)入國家藥品監(jiān)督管理局創(chuàng)新通道，成為國內(nèi)體外診斷行業(yè)首個進(jìn)入該程序的 AI 類產(chǎn)品。該分析儀通過創(chuàng)新性的形態(tài)學(xué)檢測方案，以優(yōu)異的指標(biāo) 及效率，實現(xiàn)白血病等高發(fā)惡性腫瘤的早期篩查輔助臨床診斷。

AI+內(nèi)容：騰訊 AI Lab 持續(xù)探索 AI 與人協(xié)同合作的內(nèi)容生成技術(shù)，此前相繼發(fā)布了文本理解系統(tǒng) TexSmart、交互翻譯系統(tǒng) TranSmart 等，并且創(chuàng)新性地探索了 AI 在游戲電競、直播等領(lǐng)域的應(yīng)用。智能寫作方面，22 年 4 月，發(fā)布智能寫作助手「文涌（Effidit）」，用技術(shù)助力文思泉涌。初版本融合了知識抽取、文本理解、文本生成、大規(guī)模預(yù)訓(xùn)練模型、經(jīng)典語言模型、搜索等多項技術(shù)積累，提供多維度文本補(bǔ) 全，多樣化文本潤色等核心功能，及例句推薦、文本糾錯、云輸入法、學(xué)術(shù)專業(yè)版等完整的輔助寫作能力。22 年 12 月，文涌 2.0 版本發(fā)布，新版本增加了風(fēng)格化文本續(xù)寫等眾多功能，共包含「文本補(bǔ)全」、「智能糾錯」、「文本潤色」、「超級網(wǎng)典」四個模塊，其中「文本補(bǔ)全」和「超級網(wǎng)典」旨在幫助寫作者在創(chuàng)作時開闊思路、提供彈藥，而「智能糾錯」和「文本潤色」則是重在提升創(chuàng)作后的文本水平和質(zhì)量。部分功能目前已接入搜狗輸入法 PC 端（「智能汪仔」）和 QQ 瀏覽器移動端。

4、字節(jié)

相對于阿里、百度、騰訊均已經(jīng)推出大模型及布局，字節(jié)目前仍未公布內(nèi)部架構(gòu)、產(chǎn)品體系及大模型的最新進(jìn)展。字節(jié)的 AI 布局可以追溯到 2016 年成立的字節(jié) AI LAB 的成立，AI Lab 對自身的定位是作為公司內(nèi)部的研究所和技術(shù)服務(wù)商，為平臺輸出海量內(nèi)容提供 AI 技術(shù)支持。AI Lab 最初成立的時候聚集了馬維英、李航、李磊等大牛，此后馬維英離開團(tuán)隊回到學(xué)界，目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節(jié) AI Lab（人工智能實驗室），參與語言生成大模型的研發(fā)。字節(jié)目前大模型仍處于發(fā)展階段，現(xiàn)以旗下云平臺火山引擎在算力、平臺和生態(tài)端布局為主。大模型團(tuán)隊由字節(jié)搜索部門牽頭，搜索業(yè)務(wù)部門、AI Lab 和 AML（應(yīng)用機(jī)器學(xué)習(xí)）團(tuán)隊均調(diào)任部分人馬支援，目前團(tuán)隊規(guī) 模在 40 人左右，圖片大模型團(tuán)隊由產(chǎn)品研發(fā)與工程架構(gòu)部下屬的智能創(chuàng)作團(tuán)隊牽頭；團(tuán)隊負(fù)責(zé)人間接和直接匯報對象，則均為 TikTok 產(chǎn)品技術(shù)負(fù)責(zé)人朱文佳。根據(jù)調(diào)研情況，字節(jié)目前在仍在做模型調(diào)優(yōu)，計劃 23 年 6-9 月達(dá)到 3.5 模型相當(dāng)?shù)乃剑? 月之后語言模型可以同步做發(fā)布和多模態(tài)模型訓(xùn)練，語言模型發(fā)布至少要到 9 月之后。后面會基于當(dāng)前的語言模型，做多模態(tài)的模型，多模態(tài)相對來說難度會更大，至少要等到 24 年 3-4 月。

4.1 模型

字節(jié)在 AI 方面的積累主要集中在機(jī)器翻譯、智能語音、視頻圖像和多模態(tài)四個領(lǐng)領(lǐng)域。字節(jié)跳動的研究成果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、圖片和文本統(tǒng)一生成模型 DaVinci 等。在機(jī)器翻譯方面，字節(jié)旗下火山翻譯團(tuán)隊 2022 年在 SC22、ACL2022、ICML2022 等頂會發(fā)表學(xué)術(shù)成果 10 余篇，受邀參加了英偉達(dá) GTC 2022 全球 AI 開發(fā)者大會等知名技術(shù)論壇，申報翻譯技術(shù)專利 15 項，榮獲中國專利優(yōu)秀獎在 WMT2022 的非洲語向任務(wù)上奪得桂冠。目前，火山翻譯提供 9 大領(lǐng)域翻譯，其中包括但不限于人工智能、互聯(lián)網(wǎng)行業(yè)生物醫(yī)療、科學(xué)技術(shù)、金融財經(jīng)，支持共 114 個語向的翻譯，其中包括伊博語、亞美尼亞語等小語種。其中，字節(jié)和清華聯(lián)合發(fā)布了 DA-Transformer，DA-Transformer 在機(jī)器翻譯上首次達(dá)到了 Transformer 同樣的精度，而處理的速度提高了 7~14 倍。DA-Transformer 不僅可以用于機(jī)器翻譯，而且可以用于任意的序列到序列任務(wù)。

在多模態(tài)方面，2022 年 3 月，字節(jié)發(fā)布的 text2image 模型實現(xiàn)了文生圖能力，實驗數(shù)據(jù)顯示，其效果比 VQGAN-CLIP 要真實，尤其是泛化能力還比不少用大量文本-圖像數(shù)據(jù)對訓(xùn)練出來的模型要好很多。2022 年 5 月，字節(jié)跳動 AI Lab Research 團(tuán)隊提出了 X-VLM，首次提出學(xué)習(xí)多粒度的視覺和語言對齊。實驗證明，這種預(yù)訓(xùn)練方法十分高效，模型規(guī)模無需很大，預(yù)訓(xùn)練數(shù)據(jù)無需很多，僅 216M 參數(shù)量的 X-VLM 就能在廣泛的多模態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn)，例如：圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前，X-VLM 在字節(jié)跳動的真實應(yīng)用場景上超過了業(yè)界常用的多個模型，完成了上線，服務(wù)于如今日頭條等業(yè)務(wù)。相關(guān)論文已被 ICML 2022 接收。

4.2 算力

2023 年 4 月 18 日，火山引擎在春季火山引擎 FORCE 原動力大會上正式發(fā)布自研 DPU 等系列云產(chǎn)品，并正式推出智能推薦-高速訓(xùn)練引擎，支持 100GB 至 10TB 以上超大模型的高效訓(xùn)練，采取軟硬一體優(yōu)化設(shè)計等，讓面向推薦場景的高速訓(xùn)練更快，成本更低。火山引擎智能推薦-高速訓(xùn)練引擎具備軟硬一體、細(xì)粒度算子優(yōu)化、分布式訓(xùn)練和推理三大特點，1）軟硬一體化：針對關(guān)鍵場景的超大模型，火山引擎智能推薦-高速訓(xùn)練引擎提供了全 GPU 方案，可以支持 100GB-10TB 的超大模型的高速訓(xùn)練，綜合 ROI 是 CPU 的 5 倍；覆蓋更多場景的模型，提供了 GPU+CPU 混訓(xùn)方案，綜合 ROI 是 CPU 的 2 倍；2）細(xì)粒度算子優(yōu)化：針對搜索、推薦和營銷場景，優(yōu)化細(xì)粒度算子，使得在模型推理的過程中有更好的性能表現(xiàn)。在訓(xùn)練時，通過算子融合并精細(xì)調(diào)優(yōu)，性能提升 20%；在推理時，通過算子優(yōu)化，性能提升 40%；3）分布式訓(xùn)練和推理：智能推薦-高速訓(xùn)練引擎為了保障系統(tǒng)的穩(wěn)定性，支持訓(xùn)練和推理的全方位容錯，當(dāng)某一個節(jié)點故障時，可以快速恢復(fù)；支持分布式推理，包括多分片、多副本，從而保證線上服務(wù) 的高可用。

4.3 平臺

2022 年 7 月，火山引擎正式發(fā)布機(jī)器學(xué)習(xí)平臺，達(dá)到 0 碎片的極致性能和優(yōu)秀的開發(fā)體驗，火山引擎機(jī)器學(xué)習(xí)平臺解決方案已在金融、零售、能源、教育等行業(yè)落地，幫助更多企業(yè)不斷縮短智能業(yè)務(wù)研發(fā)周期，提高模型上線效率和 GPU 使用率，并依靠定制化的智能模型實現(xiàn)業(yè)務(wù)增長。火山引擎在數(shù)據(jù)管理、資源管理、流程和模型三大領(lǐng)域具備核心優(yōu)勢。1）在數(shù)據(jù)管理場景下，火山引擎機(jī) 器學(xué)習(xí)平臺可通過結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)庫、數(shù)據(jù)協(xié)同標(biāo)注與版本化管理、多租戶安全等，保護(hù)企業(yè)數(shù)據(jù)資產(chǎn)，為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)開發(fā)助力；2）在資源管理場景下，機(jī)器學(xué)習(xí)平臺可通過 GPU、CPU 調(diào)度，模型分布式訓(xùn)練，資源動態(tài)分配，彈性線上推理服務(wù)等，提供機(jī)器學(xué)習(xí)模型開發(fā)所需要的算力。無論是在字節(jié)跳動內(nèi)部還是在外部客戶，該平臺都已實現(xiàn)萬級 GPU 算力資源的池化管理、調(diào)度和共享；3）對于流程和模型管理，機(jī)器學(xué)習(xí)平臺提供 DevOps 能力。不同于一般業(yè)務(wù)，機(jī)器學(xué)習(xí)應(yīng)用的發(fā)布包含了所有規(guī)則和處理邏輯，在應(yīng)用上線后，由于需要周期性地進(jìn)行更新、優(yōu)化迭代，模型本身對外部數(shù)據(jù)有強(qiáng)依賴，這使得整個 DevOps 更復(fù)雜?；?山引擎機(jī)器學(xué)習(xí)平臺構(gòu)建了 DevOps 流水線，實現(xiàn)從數(shù)據(jù)處理、模型訓(xùn)練、模型評估、模型發(fā)布的持續(xù)集成，提升端對端業(yè)務(wù)上線效率。平臺也支持通過超參數(shù)自動搜索、多模型自動比對與評估、模型版本化管理、線上模型運維等，降低模型開發(fā)和維護(hù)門檻。

4.4 應(yīng)用

火山引擎的 AI 場景產(chǎn)品主要包括智能創(chuàng)作、智能體驗以及智能營銷，目前已服務(wù)數(shù)百家客戶，分別在視頻創(chuàng)作、互動創(chuàng)作、直播短視頻構(gòu)建中推動客戶業(yè)務(wù)增長。在內(nèi)容視頻化和互動趣味化的大趨勢下，火山引擎創(chuàng) 作與體驗場景提供了從算法到平臺的全域解決方案，在 AI 底層算法的支持下，通過全品類的正版素材和特色化的創(chuàng)作工具，快速完成視頻、特效、虛擬形象、XR 等創(chuàng)新內(nèi)容。不管是企業(yè)用戶還是個人用戶，人人都可擁有創(chuàng)作比較專業(yè)的短視頻的能力。智能創(chuàng)作云是火山引擎發(fā)布的面向企業(yè)的創(chuàng)作 AI 產(chǎn)品，智能創(chuàng)作云包括眾多 AI 創(chuàng)作工具，比如圖文轉(zhuǎn)視頻能力，用戶只需輸入文字即可生成視頻，AI 通過理解文字內(nèi)容，搭配適合的圖片、音樂和轉(zhuǎn)場等，快速生成一支專業(yè)的視頻；比如視頻模板，剪同款功能就是把優(yōu)質(zhì)視頻內(nèi)容抽象成腳本，用戶只要會打開攝像頭拍攝，就有了專業(yè)拍、剪視頻的能力，極大降低了創(chuàng)作門檻，保障了內(nèi)容生產(chǎn)的質(zhì)量。

字節(jié)旗下云服務(wù)平臺云服務(wù)平臺火山引擎提供有關(guān)音視頻的智能美化特效。智能美化特效基于自主研發(fā)的特效 SDK，提供多項圖像渲染和算法，提供貼紙?zhí)匦?美化濾鏡/人像智能/計算機(jī)視覺基礎(chǔ)檢測識別等功能，用于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前，智能美化特效擁有超過 200 個自研算法、具備小于 2ms 的人臉檢測速度，提供超過 90 萬個抖音同款特效貼紙和濾鏡。此外，字節(jié)在內(nèi)部的相關(guān)產(chǎn)品持續(xù)引入 AI。2022 年 5 月，字節(jié)推出海綿樂隊 App，海綿樂隊是一款手機(jī)端的便攜式音頻創(chuàng)作工具，在實現(xiàn)傳統(tǒng)的錄音、效果器同時，引入大量 AI 智能來協(xié)助創(chuàng)作，降低使用難度，提高創(chuàng)作趣味和效率。2023 年 4 月 12 日，飛書宣布將推出智能 AI 助手“My AI”， My AI 包括自動匯總會議紀(jì)要、創(chuàng)建報告、優(yōu)化和續(xù)寫文字內(nèi)容等。在飛書 App 中，My AI 也可以通過對話形式，幫助用戶自動創(chuàng)建日程、搜索公司內(nèi)部知識庫等功能。飛書還表示，My AI 能做的遠(yuǎn)不止于此。未來，更強(qiáng)大的智能助手，也會讓工作中的人們更強(qiáng)大。

三、商業(yè)模式

當(dāng)前全球大模型產(chǎn)業(yè)落地仍處于早期探索階段。一方面，研發(fā)機(jī)構(gòu)在大模型方面的技術(shù)研發(fā)已較為成熟，如算法架構(gòu)、預(yù)訓(xùn)練和微調(diào)策略、計算并行加速等，但對落地場景不夠熟悉，沒有形成完善的商業(yè)化模式，需要與下游場景企業(yè)合作建立大模型商業(yè)模式；另一方面，絕大多數(shù)下游場景的企業(yè)對大模型沒有形成基本的概念和認(rèn)知，同時也沒有能夠支撐模型微調(diào)的算力，以及定制、二次開發(fā)模型的人力資源和技術(shù)實力。此輪基于 ChatGPT 的大模型浪潮興起伊始，結(jié)合我國 AI 產(chǎn)業(yè)鏈與競爭格局現(xiàn)狀，一種判斷是：基于大模型的通用和泛化性提高，未來手握通用基礎(chǔ)大模型的巨頭企業(yè)會逐漸侵蝕垂直領(lǐng)域廠商業(yè)務(wù)。這種壓力長期來看的確存在，但大模型與產(chǎn)品結(jié)合，尤其在非檢索或開放域交互等場景中，需要依賴垂直領(lǐng)域數(shù)據(jù)和行業(yè) know-how、應(yīng)用場景和用戶數(shù)據(jù)反哺、一站式端到端工程化能力等。在此窗口期，垂直領(lǐng)域與應(yīng)用層廠商應(yīng)積極將大模型能力整合入自己的技術(shù)棧，服務(wù)于產(chǎn)品功能優(yōu)化，建立“數(shù)據(jù)飛輪”壁壘。在下游豐富的基于大語言模型、AIGC 應(yīng)用開發(fā)需求的影響下，還將分化出一類工具型或平臺型廠商，主要提供基于各類大模型的開發(fā)平臺服務(wù)，幫助客戶實現(xiàn)便捷的 AIGC 應(yīng)用開發(fā)與落地。

1、API 模式

API 模式指的是由大模型的研發(fā)主體（如科研機(jī)構(gòu)）對完成的模型文件進(jìn)行封裝，將模型在各類任務(wù)上的推理能力封裝成統(tǒng)一的應(yīng)用程序接口，對外提供服務(wù)的模式。下游企業(yè)可以獲得這些接口，并按照自身的業(yè)務(wù) 需求，將接口作為可以調(diào)用的代碼庫、程序包等，植入已有的應(yīng)用和服務(wù)中，讓大模型的 API 為整個程序進(jìn)行賦能。API 模式的主要優(yōu)勢在于降低了企業(yè)應(yīng)用大模型的成本。API 將大模型內(nèi)部的所有技術(shù)細(xì)節(jié)進(jìn)行封閉，企業(yè)不需要過多了解模型的技術(shù)細(xì)節(jié)，也不需要投入額外的開發(fā)人力和算力資源進(jìn)行大模型調(diào)優(yōu)。

2、PaaS 模式

大模型作為一種技術(shù)，將其集成在 AI 平臺上，對外提供能力和服務(wù)，成為一些技術(shù)實力雄厚企業(yè)的選擇。這種模式中，企業(yè)的主要落地產(chǎn)品的 PaaS 平臺、開發(fā)工具、AI 服務(wù)等組合而成的套件，大模型是套件中的一個重要的組成部分，但不是全部。用戶購買或使用平臺的過程中，可以利用平臺提供的工具，對大模型進(jìn)行開發(fā)和應(yīng)用，集成于自有的體系中，為自身業(yè)務(wù)提供服務(wù)。需要注意的是，和 API 模式不同，PaaS 服務(wù)模式提供的是包括模型在內(nèi)的一系列工具和平臺，用戶不能單獨獲得模型的能力。同時，用戶雖然可以通過 PaaS 模式，獲得對模型更高的開發(fā)和控制權(quán)，但往往需要為此付費，這為 PaaS 服務(wù)的供應(yīng)商帶來了一定的利潤。

以微調(diào)對話領(lǐng)域模型為例，英偉達(dá)提供了具體的部署流程。用戶首先可以從云上下載已預(yù)訓(xùn)練好的模型，并結(jié)合場景數(shù)據(jù)集，利用 TLT 工具，對數(shù)據(jù)進(jìn)行處理、增強(qiáng)，并對預(yù)訓(xùn)練模型進(jìn)行微調(diào)，微調(diào)后利用平臺進(jìn)行測評。待測評結(jié)果符合實際應(yīng)用要求后，可導(dǎo)出模型，進(jìn)行下一步的使用（如后續(xù)用 RIVA 進(jìn)行模型的應(yīng)用）.。目前 TLT 平臺已經(jīng)支持 BERT、Megatron 等預(yù)訓(xùn)練語言模型，以及計算機(jī)視覺領(lǐng)域多種任務(wù)的模型。英偉達(dá)稱，在 TLT 平臺的支持下，相比非遷移學(xué)習(xí)，用戶只需要使用十分之一的數(shù)據(jù)進(jìn)行訓(xùn)練，模型部署效率提升 10 倍。 TLT 平臺本身是免費的，支持英偉達(dá)旗下的 A100、V100GPU 等硬件。國內(nèi)也有大型科技企業(yè)推動 PaaS 模式的發(fā)展。例如，2020 年 7 月，百度發(fā)布了 NLP 開發(fā)與服務(wù)平臺文心，其依托 ERNIE 預(yù)訓(xùn)練技術(shù)，為開發(fā)者提供 NLP 定制與應(yīng)用能力。文心平臺可通過公有云（如 EasyDL-NLP、 BML 等）和私有化兩種方式為產(chǎn)業(yè)提供服務(wù)。用戶不需要關(guān)注計算開發(fā)環(huán)境的搭建和算法實現(xiàn)的底層實現(xiàn)細(xì)節(jié)。對于對場景要求更高的用戶，百度提供全流程、可深度定制、可私有化部署的文心開發(fā)套件。用戶可以獲得模型技術(shù)選型、本地化訓(xùn)練、離線部署等深度解決方案。截至目前，文心平臺已累計支持 4 萬開發(fā)者，及涵蓋各行各業(yè)的 200 多家企業(yè)客戶。

3、MaaS 模式

MaaS 商業(yè)模式是以算力平臺、模型倉庫及數(shù)據(jù)集倉庫為基礎(chǔ)的，倡導(dǎo)零門檻的模型體驗，提供簡單快速的模型使用、完整的模型定制鏈路及模型云端部署服務(wù)，主要提供給 AI 的愛好者、開發(fā)者、研究員以及部分中小型轉(zhuǎn)型企業(yè)的商業(yè)化模型使用。 “模型→單點工具→應(yīng)用場景”是 MaaS 產(chǎn)業(yè)結(jié)構(gòu)的核心。大模型是 MaaS 的最重要基座，例如 OpenAI 提供的訪問執(zhí)行各種自然語言任務(wù)的 GPT-3、將自然語言翻譯成代碼的 Codex、創(chuàng)建和編輯原始圖像的 DALL? E；單點工具是大模型應(yīng)用的補(bǔ)充，例如 ChatGPT 是在 GPT-3.5 模型的基礎(chǔ)上，產(chǎn)生出的能“對話”的 AI 系統(tǒng)；內(nèi)容寫作工具 Jasper 它基于開源的 GPT-3 模型，它使用人工智能為用戶編寫內(nèi)容等；各種應(yīng)用場景是大模型應(yīng) 用的變現(xiàn)，例如商湯科技的書生（INTERN）大模型可以讓 AI 模型處理多樣化的視覺任務(wù)；又如 GPT 模型系列作為基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型，應(yīng)用場景持續(xù)擴(kuò)展。

而除了模型本身進(jìn)行訂閱收費以外，嵌入其他產(chǎn)品獲得引流式收入也是模式之一，例如，微軟宣布推出高級付費版 Microsoft Teams Premium，這項高級服務(wù)將在 6 月份每月收費 7 美元，然后在 7 月份恢復(fù)到正常的 10 美元，訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧（Intelligent Recap）”這一重要功能，該功能將提供自動生成的會議記錄、推薦任務(wù)和個性化標(biāo)亮；微軟旗下 Dynamics 365 產(chǎn)品線宣布旗下客戶關(guān)系管理軟件 Viva Sales 也將集成 OpenAI 的技術(shù)，通過人工智能幫助銷售人員完成許多繁雜且重復(fù)的文字工作。雖然，GPT-3.5 并未在 Viva Sales 中作為單獨的收費項目存在，但是 Viva Sales 作為 CRM 產(chǎn)品本身每月就收費 40 美元，假設(shè) 有 1000 萬客戶是因為 GPT-3.5 而選購 Viva Sales，則代表 GPT-3.5 每年能夠為微軟帶來 48 億美元的收入。

其它的收費模式還包括不同的 Model 應(yīng)對不同的客戶需求和客戶定價，如 OpenAI 在推出 ChatGPT 以前，其主要收入來源于對外部客戶開源自身大模型，通過提供 API 接口調(diào)用來收費。例如用于創(chuàng)建和編輯原始圖像的 DALL·E 模型，Mixtiles 利用 DALL·E API 來創(chuàng)建和構(gòu)建能引起情感共鳴的藝術(shù)品（圖片）；數(shù)字平臺 CALA 同樣調(diào)用了 DALL·E 模型，使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設(shè)計理念圖?？梢钥闯觯噍^于 Mixtiles，CALA 對于 DALL·E 模型的應(yīng)用更偏商業(yè)，對于細(xì)節(jié)的要求也更高，那在這種情況下，CALA 和 Mixtiles 兩者調(diào)用 DALL·E 模型的收費肯定是有所不同的。總結(jié)來說，不同的 Model 應(yīng)對不同的客戶需求和客戶定價肯定也會有所不同，客戶的要求越高，使用的模型越好，那么大模型的收費也將會更高。

編輯：黃飛

閱讀全文

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

淺析AI大型語言模型研究的發(fā)展歷程

評論