91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌再次發(fā)布BERT的多語(yǔ)言模型和中文模型

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-08 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,在開(kāi)源最強(qiáng)NLP模型BERT的TensorFlow代碼和預(yù)訓(xùn)練模型的基礎(chǔ)上,谷歌AI團(tuán)隊(duì)再次發(fā)布一個(gè)多語(yǔ)言模型和一個(gè)中文模型。

上周,谷歌AI團(tuán)隊(duì)開(kāi)源了備受關(guān)注的“最強(qiáng)NLP模型”BERT的TensorFlow代碼和預(yù)訓(xùn)練模型,不到一天時(shí)間,收獲3000多星!

今天,谷歌再次發(fā)布BERT的多語(yǔ)言模型和中文模型!

BERT,全稱是BidirectionalEncoderRepresentations fromTransformers,是一種預(yù)訓(xùn)練語(yǔ)言表示的新方法。

BERT有多強(qiáng)大呢?它在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中表現(xiàn)出驚人的成績(jī):全部?jī)蓚€(gè)衡量指標(biāo)上全面超越人類!并且還在11種不同NLP測(cè)試中創(chuàng)出最佳成績(jī),包括將GLUE基準(zhǔn)推至80.4%(絕對(duì)改進(jìn)7.6%),MultiNLI準(zhǔn)確度達(dá)到86.7% (絕對(duì)改進(jìn)率5.6%)等。

新智元近期對(duì)BERT模型作了詳細(xì)的報(bào)道和專家解讀:

NLP歷史突破!谷歌BERT模型狂破11項(xiàng)紀(jì)錄,全面超越人類!

狂破11項(xiàng)記錄,谷歌年度最強(qiáng)NLP論文到底強(qiáng)在哪里?

解讀谷歌最強(qiáng)NLP模型BERT:模型、數(shù)據(jù)和訓(xùn)練

如果你已經(jīng)知道BERT是什么,只想馬上開(kāi)始使用,可以下載預(yù)訓(xùn)練過(guò)的模型,幾分鐘就可以很好地完成調(diào)優(yōu)。

戳這里直接使用:

https://github.com/google-research/bert/blob/master/multilingual.md

模型

目前有兩種多語(yǔ)言模型可供選擇。我們不打算發(fā)布更多單語(yǔ)言模型,但可能會(huì)在未來(lái)發(fā)布這兩種模型的BERT-Large版本:

BERT-Base, Multilingual:102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters

BERT-Base, Chinese:Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

多語(yǔ)言模型支持的語(yǔ)言是維基百科上語(yǔ)料最大的前100種語(yǔ)言(泰語(yǔ)除外)。多語(yǔ)言模型也包含中文(和英文),但如果你的微調(diào)數(shù)據(jù)僅限中文,那么中文模型可能會(huì)產(chǎn)生更好的結(jié)果。

結(jié)果

為了評(píng)估這些系統(tǒng),我們使用了XNLI dataset,它是MultiNLI的一個(gè)版本,其中dev集和test集已經(jīng)(由人類)翻譯成15種語(yǔ)言。需要注意的是,訓(xùn)練集是機(jī)器翻譯的(我們使用的是XNLI提供的翻譯,而不是Google NMT)。

以下6種主要語(yǔ)言的評(píng)估結(jié)果:

前兩行是XNLI baseline的結(jié)果,后三行是使用BERT的結(jié)果。

Translate Train表示MultiNLI的訓(xùn)練集是從英語(yǔ)用機(jī)器翻譯成外語(yǔ)的。所以訓(xùn)練和評(píng)估都是用外語(yǔ)完成的。遺憾的是,由于是用機(jī)器翻譯的數(shù)據(jù)進(jìn)行訓(xùn)練,因此無(wú)法量化較低的精度在多大程度上歸因于機(jī)器翻譯的質(zhì)量,多大程度上歸因于預(yù)訓(xùn)練模型的質(zhì)量。

Translate Test表示XNLI測(cè)試集是從外語(yǔ)用機(jī)器翻譯成英語(yǔ)的。因此,訓(xùn)練和評(píng)估都是用英語(yǔ)進(jìn)行的。但是,由于測(cè)試評(píng)估是在機(jī)器翻譯的英語(yǔ)上進(jìn)行的,因此準(zhǔn)確性取決于機(jī)器翻譯系統(tǒng)的質(zhì)量。

Zero Shot表示多語(yǔ)言BERT模型在英語(yǔ)MultiNLI上進(jìn)行了微調(diào),然后在外語(yǔ)XNLI測(cè)試集上進(jìn)行了評(píng)估。在這種情況下,預(yù)訓(xùn)練和微調(diào)的過(guò)程都不涉及機(jī)器翻譯。

請(qǐng)注意,英語(yǔ)的結(jié)果比MultiNLI baseline的84.2要差,因?yàn)檫@個(gè)訓(xùn)練使用的是Multilingual BERT模型,而不是English-only的BERT模型。這意味著對(duì)于語(yǔ)料資源大的語(yǔ)言,多語(yǔ)言模型的表現(xiàn)不如單語(yǔ)言模型。但是,訓(xùn)練和維護(hù)數(shù)十種單語(yǔ)言模型是不可行的。因此,如果你的目標(biāo)是使用英語(yǔ)和中文以外的語(yǔ)言最大限度地提高性能,那么從我們的多語(yǔ)言模型開(kāi)始,對(duì)你感興趣的語(yǔ)言數(shù)據(jù)進(jìn)行額外的預(yù)訓(xùn)練是有益的。

對(duì)于中文來(lái)說(shuō),用MultilingualBERT-Base和Chinese-onlyBERT-Base訓(xùn)練的中文模型的結(jié)果比較如下:

跟英語(yǔ)類似,單語(yǔ)言模型比多語(yǔ)言模型好3%。

Fine-tuning 示例

多語(yǔ)言模型不需要任何特殊考慮或更改API。我們?cè)趖okenization.py中更新了BasicTokenizer的實(shí)現(xiàn)以支持漢字的tokenization,但沒(méi)有更改 tokenization API。

為了測(cè)試新模型,我們修改了run_classifier.py以添加對(duì)XNLI數(shù)據(jù)集的支持。這是MultiNLI的15種語(yǔ)言版本,其中dev/test 集已經(jīng)經(jīng)過(guò)人工翻譯的,訓(xùn)練集已經(jīng)經(jīng)過(guò)機(jī)器翻譯。

要運(yùn)行 fine-tuning 代碼,請(qǐng)下載XNLI dev/test set和XNLI機(jī)器翻譯的訓(xùn)練集,然后將兩個(gè).zip文件解壓縮到目錄$XNLI_DIR中。

在XNLI上運(yùn)行 fine-tuning。該語(yǔ)言被硬編碼為run_classifier.py(默認(rèn)為中文),因此如果要運(yùn)行其他語(yǔ)言,請(qǐng)修改XnliProcessor。

這是一個(gè)大型數(shù)據(jù)集,因此在GPU上訓(xùn)練需要花費(fèi)幾個(gè)小時(shí)(在Cloud TPU上大約需要30分鐘)。要快速運(yùn)行實(shí)驗(yàn)以進(jìn)行調(diào)試,只需將num_train_epochs設(shè)置為較小的值(如0.1)即可。

export BERT_BASE_DIR=/path/to/bert/chinese_L-12_H-768_A-12 # or multilingual_L-12_H-768_A-12export XNLI_DIR=/path/to/xnli python run_classifier.py --task_name=XNLI --do_train=true --do_eval=true --data_dir=$XNLI_DIR --vocab_file=$BERT_BASE_DIR/vocab.txt --bert_config_file=$BERT_BASE_DIR/bert_config.json --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt --max_seq_length=128 --train_batch_size=32 --learning_rate=5e-5 --num_train_epochs=2.0 --output_dir=/tmp/xnli_output/

使用 Chinese-only 模型,結(jié)果應(yīng)該是這樣的:

***** Eval results ***** eval_accuracy = 0.774116 eval_loss = 0.83554 global_step = 24543 loss = 0.74603訓(xùn)練細(xì)節(jié)

數(shù)據(jù)源和采樣

我們選擇的語(yǔ)言是維基百科上語(yǔ)料最大的前100種語(yǔ)言。將每種語(yǔ)言的整個(gè)Wikipedia轉(zhuǎn)儲(chǔ)數(shù)據(jù)(不包括用戶頁(yè)和討論頁(yè))作為每種語(yǔ)言的訓(xùn)練數(shù)據(jù)。

然而,對(duì)于特定語(yǔ)言,維基百科的語(yǔ)料大小差異很大,而在神經(jīng)網(wǎng)絡(luò)模型中,低資源語(yǔ)言可能是“代表性不足”的(假設(shè)語(yǔ)言一定程度上在有限的模型容量中“競(jìng)爭(zhēng)”)。

維基百科的語(yǔ)料大小也與該語(yǔ)言的使用者人數(shù)有關(guān),而且我們也不想為了一種特定語(yǔ)言在很小的數(shù)據(jù)集上執(zhí)行數(shù)千個(gè)epochs,造成過(guò)度擬合模型。

為了平衡這兩個(gè)因素,我們?cè)谟?xùn)練前數(shù)據(jù)創(chuàng)建(以及WordPiece詞匯創(chuàng)建)期間對(duì)數(shù)據(jù)進(jìn)行了指數(shù)平滑加權(quán)。換句話說(shuō),假設(shè)一種語(yǔ)言的概率是P(L),例如P(English) = 0.21,表示在將所有維基百科總合在一起之后,21%的數(shù)據(jù)是英語(yǔ)的。我們通過(guò)某個(gè)因子S對(duì)每個(gè)概率求冪,然后重新規(guī)范化,并從這個(gè)分布中進(jìn)行采樣。

在這個(gè)示例中,我們使S = 0.7。因此,像英語(yǔ)這樣的高資源語(yǔ)言會(huì)被抽樣不足,而像冰島語(yǔ)這樣的低資源語(yǔ)言會(huì)被過(guò)度采樣。比如說(shuō),在原始分布中,英語(yǔ)比冰島語(yǔ)采樣率高1000倍,但在平滑后,英語(yǔ)的采樣率只高100倍。

Tokenization

對(duì)于Tokenization,我們使用110k共享的WordPiece詞匯表。單詞計(jì)數(shù)的加權(quán)方式與數(shù)據(jù)相同,因此低資源語(yǔ)言的加權(quán)會(huì)增大。 我們故意不使用任何標(biāo)記來(lái)表示輸入語(yǔ)言(以便zero-shot訓(xùn)練可以工作)。

因?yàn)橹形臎](méi)有空白字符,所以在使用WordPiece之前,我們?cè)贑JK Unicode范圍內(nèi)的每個(gè)字符周?chē)砑恿丝崭?。這意味著中文被有效地符號(hào)化了。請(qǐng)注意,CJK Unicode block僅包含漢字字符,不包括朝鮮文/韓文或日語(yǔ)片假名/平假名,這些與其他語(yǔ)言一樣使用空格+ WordPiece進(jìn)行標(biāo)記化。

對(duì)于所有其他語(yǔ)言,我們應(yīng)用與英語(yǔ)相同的方法:(a)字母小寫(xiě)+重音刪除,(b)標(biāo)點(diǎn)符號(hào)分割,(c)空白標(biāo)記化。 我們知道口音標(biāo)記在某些語(yǔ)言中具有重要意義,但認(rèn)為減少有效詞匯的好處可以彌補(bǔ)這一點(diǎn)。一般來(lái)說(shuō),BERT強(qiáng)大的上下文模型應(yīng)該能彌補(bǔ)刪除重音標(biāo)記而引入的歧義。

支持的語(yǔ)言

多語(yǔ)言模型支持維基百科上語(yǔ)料量最大的前100種語(yǔ)言。

但我們不得不排除的唯一一種語(yǔ)言是泰語(yǔ),因?yàn)樗俏ㄒ灰环N不使用空格來(lái)劃分單詞的語(yǔ)言(除了漢語(yǔ)),而且每個(gè)單詞的字符太多,不能使用基于字符的tokenization。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111524
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11324
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15533

原文標(biāo)題:谷歌最強(qiáng)NLP模型BERT官方中文版來(lái)了!多語(yǔ)言模型支持100種語(yǔ)言

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    解鎖谷歌FunctionGemma模型的無(wú)限潛力

    在智能體 AI 領(lǐng)域,工具調(diào)用能力是將自然語(yǔ)言轉(zhuǎn)化為可執(zhí)行軟件操作的關(guān)鍵。此前,我們發(fā)布了專門(mén)針對(duì)函數(shù)調(diào)用而特別優(yōu)化的 Gemma 3 270M 模型版本 FunctionGemma。該模型
    的頭像 發(fā)表于 02-04 11:30 ?354次閱讀
    解鎖<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的無(wú)限潛力

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬(wàn)億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語(yǔ)言模型
    的頭像 發(fā)表于 02-02 16:36 ?955次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    谷歌正式發(fā)布Gemma Scope 2模型

    語(yǔ)言模型 (LLM) 具備令人驚嘆的推理能力,但其內(nèi)部決策過(guò)程在很大程度上仍然不透明。如果系統(tǒng)未按預(yù)期運(yùn)行,對(duì)其內(nèi)部運(yùn)作機(jī)制缺乏可見(jiàn)性將難以準(zhǔn)確定位問(wèn)題根源。過(guò)去,我們通過(guò)發(fā)布 Gemma
    的頭像 發(fā)表于 01-24 14:01 ?561次閱讀

    京東多語(yǔ)言質(zhì)量解決方案

    一、業(yè)界多語(yǔ)言面臨的通用挑戰(zhàn)是什么 做這個(gè)事之前,我們先看看業(yè)界做了什么。 ??阿里巴巴全球化測(cè)試技術(shù)介紹? ??螞蟻全球化無(wú)線端質(zhì)量解決方案? ??談?wù)?b class='flag-5'>多語(yǔ)言測(cè)試? 總結(jié)下來(lái),需要面臨3個(gè)通用
    的頭像 發(fā)表于 01-13 16:18 ?959次閱讀
    京東<b class='flag-5'>多語(yǔ)言</b>質(zhì)量解決方案

    谷歌與耶魯大學(xué)合作發(fā)布最新C2S-Scale 27B模型

    我們很榮幸發(fā)布與耶魯大學(xué)合作研究的 Cell2Sentence-Scale 27B (C2S-Scale),這是一個(gè)新的 270 億參數(shù)基礎(chǔ)模型,旨在理解單個(gè)細(xì)胞的 "語(yǔ)言"。C2S-Scale 建立在 Gemma 開(kāi)放
    的頭像 發(fā)表于 11-06 10:35 ?874次閱讀

    谷歌AlphaEarth和維智時(shí)空AI大模型的技術(shù)路徑

    谷歌AlphaEarth和維智時(shí)空AI大模型在應(yīng)用場(chǎng)景和技術(shù)實(shí)現(xiàn)上各有側(cè)重,但兩者在底層技術(shù)理念上存在顯著共性。
    的頭像 發(fā)表于 10-22 14:48 ?926次閱讀

    阿里巴巴國(guó)際站關(guān)鍵字搜索 API 實(shí)戰(zhàn):3 步搞定多語(yǔ)言適配 + 限流破局,詢盤(pán)量提升 40%

    跨境電商API開(kāi)發(fā)常陷合規(guī)、多語(yǔ)言、限流等坑。本文詳解從國(guó)際合規(guī)(GDPR/CCPA)到參數(shù)優(yōu)化、數(shù)據(jù)結(jié)構(gòu)化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構(gòu),助力提升調(diào)用成功率至99%+,精準(zhǔn)詢盤(pán)增長(zhǎng)42%。
    的頭像 發(fā)表于 10-20 14:44 ?1763次閱讀

    速賣(mài)通全球運(yùn)營(yíng)利器:商品詳情接口多語(yǔ)言 + 合規(guī) + 物流適配技術(shù)全解析

    速賣(mài)通全球化適配是跨境成功關(guān)鍵!本文詳解2025最新接口方案,涵蓋多語(yǔ)言智能翻譯、合規(guī)自動(dòng)校驗(yàn)、物流精準(zhǔn)推薦與性能優(yōu)化四大模塊,助力商家提升轉(zhuǎn)化率30%+,降低風(fēng)險(xiǎn),提效80%。附實(shí)操代碼與新手三步走策略,適合所有想出海的賣(mài)家。
    的頭像 發(fā)表于 10-16 09:30 ?595次閱讀
    速賣(mài)通全球運(yùn)營(yíng)利器:商品詳情接口<b class='flag-5'>多語(yǔ)言</b> + 合規(guī) + 物流適配技術(shù)全解析

    中科曙光助力紫東太初4.0大模型重磅發(fā)布

    近日,全球首個(gè)“深度推理+多模態(tài)”大模型——“紫東太初”4.0在2025東湖國(guó)際人工智能高峰論壇上正式發(fā)布。中科曙光作為核心生態(tài)伙伴,依托中國(guó)首個(gè)AI計(jì)算開(kāi)放架構(gòu),為“紫東太初”4.0提供圖文多模態(tài)模型訓(xùn)推、大
    的頭像 發(fā)表于 09-24 09:33 ?663次閱讀

    廣和通發(fā)布自研端側(cè)語(yǔ)音識(shí)別大模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別大模型FiboASR。該模型專為端側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場(chǎng)景深度優(yōu)化,在低延遲語(yǔ)音交互、實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄
    的頭像 發(fā)表于 08-04 11:43 ?1632次閱讀

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語(yǔ)言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?1217次閱讀

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁(yè)面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開(kāi)發(fā)可以直接復(fù)用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開(kāi)源8款混合推理模型。作為Qwen系列中的最新一代大型語(yǔ)言模型,Qwen3在推理、指令遵循、工具調(diào)用、多語(yǔ)言
    的頭像 發(fā)表于 05-06 15:17 ?1190次閱讀

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開(kāi)發(fā)已經(jīng)成為一個(gè)熱門(mén)話題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫(xiě)作、翻譯、問(wèn)答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1334次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)Transformer(ViT)。 語(yǔ)言模型 :處理文本輸入/輸出,如GPT、BERT等,部分
    的頭像 發(fā)表于 03-17 15:32 ?8969次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析