91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大開源了一個中文分詞工具包,名為——PKUSeg

電子工程師 ? 來源:lq ? 2019-01-16 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

分詞技術(shù)是一種比較基礎(chǔ)的模塊,就英文而言,詞與詞之間通常由空格分開,因此英文分詞則要簡單的多,但中文和英文的詞是有區(qū)別的,再加上中國文化的博大精深,分詞的時候要考慮的情況比英文分詞要復(fù)雜的多,如果處理不好就會直接影響到后續(xù)詞性標(biāo)注、句法分析等的準(zhǔn)確性,

目前,我們最常用的分詞工具大概有四種哈工大LTP、中科院計算所NLPIR、清華大學(xué)THULAC和jieba。

不過最近,北大開源了一個中文分詞工具包,名為 ——PKUSeg,基于Python。據(jù)介紹其準(zhǔn)確率秒殺THULAC和結(jié)巴分詞等工具。

一經(jīng)開源,pkuseg已經(jīng)在GitHub上獲得1738個Star,244個Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下幾個特點:

多領(lǐng)域分詞:不同于以往的通用中文分詞工具,此工具包同時致力于為不同領(lǐng)域的數(shù)據(jù)提供個性化的預(yù)訓(xùn)練模型。根據(jù)待分詞文本的領(lǐng)域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領(lǐng)域,網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓(xùn)練模型,同時也擬在近期推出更多的細(xì)領(lǐng)域預(yù)訓(xùn)練模型,比如醫(yī)藥、旅游、專利、小說等等。

更高的分詞準(zhǔn)確率:相比于其他的分詞工具包,當(dāng)使用相同的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),pkuseg可以取得更高的分詞準(zhǔn)確率。

支持用戶自訓(xùn)練模型:支持用戶使用全新的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

各類分詞工具包的性能對比

前面有提到說pkuseg的準(zhǔn)確率遠(yuǎn)超其他分詞工具包,現(xiàn)在就是用數(shù)據(jù)說話的時候了,下面就是在 Linux 環(huán)境下,各工具在新聞數(shù)據(jù) (MSRA) 和混合型文本 (CTB8) 數(shù)據(jù)上的準(zhǔn)確率測試情況

測試使用的是第二屆國際漢語分詞評測比賽提供的分詞評價腳本,從上圖看出結(jié)巴分詞準(zhǔn)確率最低,

跨領(lǐng)域測試結(jié)果

以下是在其它領(lǐng)域進(jìn)行測試,以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。

默認(rèn)模型在不同領(lǐng)域的測試效果

以下是各個工具包的默認(rèn)模型在不同領(lǐng)域的測試效果

使用方式

代碼示例1:使用默認(rèn)模型及默認(rèn)詞典分詞

importpkusegseg=pkuseg.pkuseg()#以默認(rèn)配置加載模型text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例2:設(shè)置用戶自定義詞典

importpkuseglexicon=['北京大學(xué)','北京***']#希望分詞時用戶詞典中的詞固定不分開seg=pkuseg.pkuseg(user_dict=lexicon)#加載模型,給定用戶詞典text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假設(shè)用戶已經(jīng)下載好了ctb8的模型#并放在了'./ctb8'目錄下,通過設(shè)置model_name加載該模型text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例4:對文件分詞

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#對input.txt的文件分詞輸出到output.txt中,#使用默認(rèn)模型和詞典,開20個進(jìn)程

代碼示例5:訓(xùn)練新模型

importpkuseg#訓(xùn)練文件為'msr_training.utf8'#測試文件為'msr_test_gold.utf8'#模型存到'./models'目錄下,開20個進(jìn)程訓(xùn)練模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三種在不同類型數(shù)據(jù)上訓(xùn)練得到的模型,根據(jù)具體需要,用戶可以選擇不同的預(yù)訓(xùn)練模型:

MSRA:在MSRA(新聞?wù)Z料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新聞文本及網(wǎng)絡(luò)文本的混合型語料)上訓(xùn)練的模型。隨pip包附帶的是此模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(網(wǎng)絡(luò)文本語料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分詞工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關(guān)注

    關(guān)注

    88

    文章

    11756

    瀏覽量

    219000
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4203

    瀏覽量

    46119
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4876

    瀏覽量

    90019

原文標(biāo)題:準(zhǔn)確率秒殺結(jié)巴分詞,北大開源全新中文分詞工具包PKUSeg

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    MinGW-w64工具集壓縮的下載

    MinGW-w64工具集壓縮的下載 這是MinGW-w64工具集壓縮的下載進(jìn)度界面,文件名為x86_64-13.2.0-release-
    發(fā)表于 02-07 04:59

    Microchip推出SDI IP內(nèi)核與四通道CoaXPress?橋接工具包,進(jìn)步擴(kuò)展PolarFire? FPGA智能嵌入式視頻生態(tài)系統(tǒng)

    )今日宣布擴(kuò)展其 PolarFire ? FPGA 智能嵌入式視頻生態(tài)系統(tǒng),助力開發(fā)者實現(xiàn)可靠、低功耗且高帶寬的視頻連接。該嵌入式視覺解決方案協(xié)議棧整合硬件評估工具包、開發(fā)工具、IP 內(nèi)核及參考設(shè)計,可簡化開發(fā)流程、增強(qiáng)安全性
    的頭像 發(fā)表于 01-27 12:14 ?395次閱讀
    Microchip推出SDI IP內(nèi)核與四通道CoaXPress?橋接<b class='flag-5'>工具包</b>,進(jìn)<b class='flag-5'>一</b>步擴(kuò)展PolarFire? FPGA智能嵌入式視頻生態(tài)系統(tǒng)

    北大學(xué)以開源技術(shù)鋪就人才與產(chǎn)業(yè)共贏之路

    當(dāng)開源浪潮席卷全球科技領(lǐng)域,成為技術(shù)創(chuàng)新與產(chǎn)業(yè)升級的核心引擎,所地方高校如何憑借前瞻布局與務(wù)實行動,在開源生態(tài)中占據(jù)重要席位,既培育出頂尖創(chuàng)新人才,又產(chǎn)出服務(wù)產(chǎn)業(yè)的硬核成果?中北大學(xué)
    的頭像 發(fā)表于 01-07 10:30 ?408次閱讀

    北大學(xué)開源鴻蒙技術(shù)俱樂部正式揭牌成立

    ”在東北大學(xué)渾南校區(qū)成功舉辦。 嘉賓合影 東北大學(xué)黨委常委、副校長王輝出席活動并致辭。王輝表示,立足國家戰(zhàn)略布局,發(fā)展開源生態(tài)、鍛造自主可控核心技術(shù)人才隊伍,是推動科技自立自強(qiáng)的關(guān)鍵
    的頭像 發(fā)表于 10-31 10:43 ?777次閱讀
    東<b class='flag-5'>北大</b>學(xué)<b class='flag-5'>開源</b>鴻蒙技術(shù)俱樂部正式揭牌成立

    FPNew開源浮點運算單元工程建立

    和fpu_div_sqrt_mvp。這兩文件夾目前處于空的狀態(tài),只要將剛剛下載好的依賴添加進(jìn)去即可。 下載下來的fpu_div_sqrt_mvp-master依賴中文件全部放
    發(fā)表于 10-24 11:08

    eForce無線通信軟件開發(fā)工具包兼容WLAN模塊WKR612AA1

    近期,eForce株式會社宣布,其面向嵌入式設(shè)備的無線通信軟件開發(fā)工具包(μC3-WLAN SDK)現(xiàn)已兼容 KAGA FEI 生產(chǎn)的無線局域網(wǎng)(WLAN)模塊"WKR612AA1"。
    的頭像 發(fā)表于 09-24 15:16 ?1192次閱讀

    量化評估企業(yè)軟件測試能力的評估工具包

    “每次版本迭代,測試團(tuán)隊總是最晚下班的群人...”在汽車軟件快速迭代的今天,這樣的場景已成為行業(yè)常態(tài):開發(fā)效率不斷提升,但測試環(huán)節(jié)卻逐漸成為拖慢交付的“最后公里”。復(fù)雜的工具鏈、割裂的流程、模糊
    的頭像 發(fā)表于 08-27 10:04 ?732次閱讀
    量化評估企業(yè)軟件測試能力的評估<b class='flag-5'>工具包</b>

    我做了智能高速隔離的USBHub...開源!

    代碼 ? 軟件說明 僅開源ESP32固件,且需使用激活工具激活。 固件燒錄及激活方式請見5.2和5.3節(jié)。 安卓手機(jī)應(yīng)用請在附件中下載安裝usb_hub_app.apk 5.2 燒錄方式
    發(fā)表于 08-09 16:01

    IQM 宣布 Resonance 量子云平臺重大升級,推出全新軟件開發(fā)工具包

    進(jìn)程,并為終端用戶帶來性能強(qiáng)大的新代量子系統(tǒng)。 此次升級將 Qrisp——源自德國弗勞恩霍夫 FOKUS 研究所的項目——設(shè)為平臺新的默認(rèn)軟件開發(fā)工具包 (SDK)。Qrisp
    的頭像 發(fā)表于 07-11 11:03 ?660次閱讀

    開源鴻蒙工程工具分論壇圓滿舉辦

    近日,開源鴻蒙開發(fā)者大會2025(OHDC.2025)工程工具分論壇在深圳圓滿舉辦。本次分論壇由開源鴻蒙IDE SIG組長、華為終端BG工程工具技術(shù)專家唐春擔(dān)任出品人,主題為“
    的頭像 發(fā)表于 06-05 15:35 ?1024次閱讀

    開源啦?。?!基于鴻蒙ArkTS封裝的圖表組件《McCharts》,大家快來起共創(chuàng)

    遙遙領(lǐng)先。作為位開發(fā)者,只是想奉獻(xiàn)點自己的微薄之力,去幫助鴻蒙擴(kuò)大開發(fā)社區(qū)生態(tài) 做開發(fā)這么久,大概八年,還沒自己開創(chuàng)
    發(fā)表于 03-15 15:21

    開源項目!教你如何制作開源教育機(jī)械臂

    前言 我們的計劃始于2016年,當(dāng)時有簡單的問題:我們?nèi)绾巫寵C(jī)器人和編程對每個人都可用? 是學(xué)習(xí)電子和編程的最佳工具,但使用帶有有線組件的試驗板對初學(xué)者來說可能具有挑戰(zhàn)性。為了
    發(fā)表于 03-10 11:22

    在Google Colab筆記本電腦上導(dǎo)入OpenVINO?工具包2021中的 IEPlugin類出現(xiàn)報錯,怎么解決?

    在 Google* Colab Notebook 上OpenVINO?工具包 2021 中使用了 IEPlugin 。 遇到: ImportError: cannot import name \'IEPlugin\' from \'openvino.inference_engine\'
    發(fā)表于 03-05 10:31

    構(gòu)建開源OpenVINO?工具包后,使用MYRIAD插件成功運行演示時報錯怎么解決?

    構(gòu)建開源OpenVINO?工具包后,使用 MYRIAD 插件成功運行演示。 使用 CPU 插件運行演示時遇到錯誤: Cannot load library \'libarmPlugin.so
    發(fā)表于 03-05 09:57

    安裝OpenVINO?工具包穩(wěn)定擴(kuò)散后報錯,怎么解決?

    已安裝OpenVINO?工具包穩(wěn)定擴(kuò)散并收到錯誤消息: \"BackendCompilerFailed: openvino_fx raised RuntimeError
    發(fā)表于 03-05 06:56