无须下载直接播放的三级黄片,日本人妻三级自拍偷拍色图片

SambaNova 與 Together 兩家公司合作開源了可商用的 BLOOMChat，一個 1760 億參數(shù)的多語言聊天大語言模型 (LLM)。由 BLOOM (176B) 在助理式的對話數(shù)據(jù)集上進(jìn)行指導(dǎo)調(diào)整，并支持多種語言的對話、問題回答和生成性答案。

根據(jù)介紹，BLOOMChat 是一個新的、開放的、多語言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 獨(dú)特的可重構(gòu)數(shù)據(jù)流架構(gòu)在 SambaNova DataScale 系統(tǒng)上訓(xùn)練了 BLOOMChat；其建立在 BigScience 組織的 BLOOM 之上，并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進(jìn)行了微調(diào)。目前，BLOOM 已經(jīng)是最大的多語言開放模型，在 46 種語言上進(jìn)行了訓(xùn)練。

在針對英語、中文、法語、阿拉伯語、西班牙語、印度語這 6 種語言的評測中，GPT-4 的勝率為 54.75%，BLOOMChat 的勝率為 45.25%，稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比，BLOOMChat 在 65.92% 的時間內(nèi)表現(xiàn)更優(yōu)。且在使用 BLOOMChat 進(jìn)行跨語言 NLP 任務(wù)的初步研究中，BLOOMChat 在 WMT 翻譯基準(zhǔn)中的表現(xiàn)要優(yōu)于其他 BLOOM 變體和主流開源聊天模型。

“我們確實想指出，與我們比較的這些模型中，有些并不適合多語言環(huán)境。但由于開源社區(qū)中沒有替代品，所以才有了現(xiàn)在的比較。我們的研究結(jié)果表明，使用正確的技術(shù)，可以在開源 LLM 之上構(gòu)建以實現(xiàn)強(qiáng)大的多語言聊天功能。我們希望我們的研究結(jié)果和 BLOOMChat checkpoint 的發(fā)布能夠為開源社區(qū)的持續(xù)討論做出貢獻(xiàn)，并激發(fā) LLM 領(lǐng)域的進(jìn)一步發(fā)展。”

項目團(tuán)隊使用定性和定量措施來評估了 BLOOMChat 的多語言聊天能力以及跨語言任務(wù)能力。共做了 3 種不同場景的實驗測評，評測了英語、中文、阿拉伯語、法語、西班牙語和印度語。

實驗一：人類偏好排序

旨在將 BLOOMChat 模型在多種語言中的聊天能力與現(xiàn)有的開源模型以及選定的封閉源模型進(jìn)行比較。使用了 “OpenAssistant Conversations”附錄 E 中的 22 個英文問題作為基準(zhǔn)。首先讓一些人類志愿者將這 22 個英文問題手動翻譯成他們各自的母語；然后讓另一組不同的志愿者，在匿名的前提下評價每個模型所給出的回答。

將 BLOOMChat 與 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三種開源模型進(jìn)行了比較：

51 名志愿者在所有模型和 6 種語言中共提交了 1158 次比較。如上圖所示，BLOOMChat (65.92%) 明顯優(yōu)于其它幾個開源模型。

與GPT-4 相比：

實驗二：模型質(zhì)量評估

此實驗旨在驗證 BLOOMChat 生成的多種語言文本的質(zhì)量。

81.8% 的回答被歸類為 “正確” 或 “可接受但有輕微缺陷”。盡管只在英語數(shù)據(jù)集上進(jìn)行了微調(diào)，但 BLOOMChat 在每種語言中都獲得了超過 70% 的 “正確” 或 “可接受” 評級。

實驗三：WMT 翻譯任務(wù)

為了初步了解模型解決跨語言 NLP 任務(wù)的能力，評估了模型在 WMT 翻譯任務(wù)上的翻譯能力。

總體而言，BLOOMChat 在翻譯任務(wù)中的表現(xiàn)明顯優(yōu)于其他 BLOOM 變體和開源聊天模型，但和 GPT-4 還有一定差距。

此外，BLOOMChat 團(tuán)隊也坦承了一些該模型的局限性：

BLOOMChat 有時可能會生成聽起來合理但事實不正確或與主題無關(guān)的回復(fù)信息。

BLOOMChat 可能在單個回復(fù)中無意間切換語言，影響輸出的連貫性和可理解性。

BLOOMChat 可能會產(chǎn)生重復(fù)的短語或句子，導(dǎo)致回復(fù)內(nèi)容缺乏吸引力和有效信息。

BLOOMChat 在生成代碼或解決復(fù)雜數(shù)學(xué)問題方面的性能可能會受到限制。

BLOOMChat 可能無意中生成含有不適當(dāng)或有害內(nèi)容的回復(fù)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴