自然語(yǔ)言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書面形式的人類語(yǔ)言。自然語(yǔ)言處理將計(jì)算語(yǔ)言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來(lái)處理語(yǔ)音和文本數(shù)據(jù),這些數(shù)據(jù)也可以與其他類型的數(shù)據(jù)一起用于開(kāi)發(fā)智能工程系統(tǒng)。
自然語(yǔ)言處理 NLP 的工作原理
自然語(yǔ)言處理旨在將非結(jié)構(gòu)化語(yǔ)言數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可用于解釋語(yǔ)音和文本數(shù)據(jù)的結(jié)構(gòu)化格式,發(fā)現(xiàn)和可視化大型數(shù)據(jù)集中的復(fù)雜關(guān)系,并生成新的語(yǔ)言數(shù)據(jù)。
原始的人類語(yǔ)言數(shù)據(jù)可以來(lái)自各種數(shù)據(jù)源,包括音頻信號(hào)、Web 和社交媒體、文檔及數(shù)據(jù)庫(kù)。這些數(shù)據(jù)包含有價(jià)值的信息,如語(yǔ)音命令、公眾對(duì)話題的情緒、運(yùn)營(yíng)數(shù)據(jù)和維護(hù)報(bào)告。自然語(yǔ)言處理可以合并和簡(jiǎn)化這些大型數(shù)據(jù)源,通過(guò)可視化和主題模型將它們轉(zhuǎn)換為有意義的信息。
自然語(yǔ)言處理將計(jì)算語(yǔ)言學(xué)與 AI 建模相結(jié)合以解釋語(yǔ)音和文本數(shù)據(jù)。
為了對(duì)語(yǔ)音數(shù)據(jù)執(zhí)行自然語(yǔ)言處理,需要檢測(cè)到音頻段中存在的人類語(yǔ)音,執(zhí)行語(yǔ)音到文本轉(zhuǎn)錄,并對(duì)生成的文本應(yīng)用文本挖掘和機(jī)器學(xué)習(xí)方法。
自然語(yǔ)言處理的數(shù)據(jù)準(zhǔn)備
在自然語(yǔ)言處理中,用于將文本從非結(jié)構(gòu)化格式轉(zhuǎn)換為結(jié)構(gòu)化格式的一些方法如下:
分詞:通常,這是自然語(yǔ)言處理中文本處理的第一步。它指將文本拆分成若干句子或字詞。
詞干提取:這種文本標(biāo)準(zhǔn)化方法通過(guò)刪除單詞的詞綴將單詞簡(jiǎn)化為其詞根形式。它基于簡(jiǎn)單的啟發(fā)式規(guī)則,可能會(huì)產(chǎn)生在字典中不存在的單詞形式。
詞形還原:這種復(fù)雜的文本標(biāo)準(zhǔn)化方法使用詞匯和詞法分析來(lái)刪除單詞的詞綴。例如,“building has floors”簡(jiǎn)化為“build have floor”。
Word2vec:在字詞嵌入方法中,最常見(jiàn)的實(shí)現(xiàn)方法是 Word2vec。該方法將字詞的分布式表示創(chuàng)建為數(shù)值向量,以捕獲字詞的語(yǔ)義和字詞之間的關(guān)系。
N 元分詞建模:一個(gè) n 元分詞是文本文檔中由 n 個(gè)連續(xù)項(xiàng)組成的一個(gè)集合,可能包括字詞、數(shù)字、符號(hào)和標(biāo)點(diǎn)符號(hào)。在涉及字詞序列的自然語(yǔ)言處理應(yīng)用中,例如情緒分析、文本分類和文本生成等應(yīng)用,N 元分詞模型可能非常有用。
AI 助力自然語(yǔ)言處理
基于語(yǔ)言數(shù)據(jù)訓(xùn)練的 AI 模型可以識(shí)別模式并預(yù)測(cè)句子中的后續(xù)字詞。要構(gòu)建自然語(yǔ)言處理模型,您可以使用經(jīng)典的機(jī)器學(xué)習(xí)算法,如邏輯回歸或決策樹(shù),也可以使用深度學(xué)習(xí)架構(gòu),如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和自編碼器。例如,您可以使用 CNN 對(duì)文本進(jìn)行分類,而使用 RNN 生成字符序列。
作為一種深度學(xué)習(xí)模型,變換器模型徹底改變了自然語(yǔ)言處理的方式,它們是 BERT 和 ChatGPT 等大型語(yǔ)言模型 (LLM) 的基礎(chǔ)。變換器旨在跟蹤順序數(shù)據(jù)中的關(guān)系。這些變換器依靠自注意力機(jī)制來(lái)捕獲輸入與輸出之間的全局依賴關(guān)系。
在自然語(yǔ)言處理的背景下,這使得 LLM 可以捕獲在自然語(yǔ)言中存在的長(zhǎng)期相關(guān)性、字詞之間的復(fù)雜關(guān)系和細(xì)微差別。LLM 可以并行處理所有字詞,從而可加快訓(xùn)練和推斷速度。
與其他預(yù)訓(xùn)練深度學(xué)習(xí)模型類似,預(yù)訓(xùn)練 LLM 可用于執(zhí)行遷移學(xué)習(xí),以解決自然語(yǔ)言處理中的特定問(wèn)題。例如,您可以微調(diào)日語(yǔ)文本的 BERT 模型。
自然語(yǔ)言處理 NLP 為何重要
自然語(yǔ)言處理會(huì)教計(jì)算機(jī)理解和生成人類語(yǔ)言。自然語(yǔ)言處理的應(yīng)用非常廣泛,而且隨著 AI 技術(shù)的發(fā)展,其應(yīng)用范圍也日漸擴(kuò)大,涵蓋日常任務(wù)和高級(jí)工程工作流等。
自然語(yǔ)言處理中的常見(jiàn)任務(wù)有語(yǔ)音識(shí)別、說(shuō)話者識(shí)別、語(yǔ)音增強(qiáng)和命名實(shí)體識(shí)別。自然語(yǔ)言理解 (NLU) 是自然語(yǔ)言處理的一個(gè)分支,您可以在其中使用語(yǔ)音和文本的語(yǔ)法和語(yǔ)義分析來(lái)提取句子的含義。NLU 任務(wù)包括文檔分類和情緒分析。

說(shuō)話者識(shí)別和情緒分析是自然語(yǔ)言處理中的常見(jiàn)任務(wù)。
自然語(yǔ)言生成 (NLG) 是自然語(yǔ)言處理的另一個(gè)分支,其中包括計(jì)算機(jī)用于在給定數(shù)據(jù)輸入的情況下產(chǎn)生文本響應(yīng)的各種方法。雖然 NLG 最初是基于模板的文本生成方式,但隨著 AI 技術(shù)的發(fā)展,實(shí)時(shí)動(dòng)態(tài)生成文本已成為可能。NLG 任務(wù)包括文本提要和機(jī)器翻譯。
自然語(yǔ)言處理及其分支。
自然語(yǔ)言處理應(yīng)用于金融、制造、電子、軟件、信息技術(shù)和其他行業(yè),例如:
自動(dòng)根據(jù)情緒(正面或負(fù)面)對(duì)評(píng)論進(jìn)行分類
統(tǒng)計(jì)文檔中字詞或短語(yǔ)的頻率并執(zhí)行主題建模
自動(dòng)對(duì)錄制的語(yǔ)音進(jìn)行標(biāo)注和標(biāo)記
根據(jù)傳感器和文本日志數(shù)據(jù)制定預(yù)測(cè)性維護(hù)計(jì)劃
自動(dòng)執(zhí)行需求形式化和合規(guī)性檢查
使用 MATLAB 進(jìn)行自然語(yǔ)言處理 NLP
MATLAB 使您能夠創(chuàng)建從數(shù)據(jù)準(zhǔn)備到部署的自然語(yǔ)言處理工作流。使用 Deep Learning Toolbox 或 Statistics and Machine Learning Toolbox 和 Text Analytics Toolbox,您可以對(duì)文本數(shù)據(jù)執(zhí)行自然語(yǔ)言處理。同樣,使用 Audio Toolbox,您可以對(duì)語(yǔ)音數(shù)據(jù)執(zhí)行自然語(yǔ)言處理。

自然語(yǔ)言處理的擴(kuò)展工作流。
數(shù)據(jù)準(zhǔn)備
您可以使用低代碼 App 來(lái)預(yù)處理語(yǔ)音數(shù)據(jù)以進(jìn)行自然語(yǔ)言處理。信號(hào)分析器可用于探查和分析數(shù)據(jù),而信號(hào)標(biāo)注器可自動(dòng)標(biāo)注真值。您可以使用提取音頻特征來(lái)提取特定于域的特征并執(zhí)行時(shí)頻變換。然后,您可以使用 speech2text 函數(shù)將語(yǔ)音轉(zhuǎn)錄為文本。
您一旦具備要應(yīng)用自然語(yǔ)言處理的文本數(shù)據(jù),就可以通過(guò)預(yù)處理文本數(shù)據(jù)實(shí)時(shí)編輯器任務(wù),以交互方式將非結(jié)構(gòu)化語(yǔ)言數(shù)據(jù)變換為結(jié)構(gòu)化格式并清洗數(shù)據(jù)。您也可以使用內(nèi)置函數(shù)以編程方式準(zhǔn)備 NLP 數(shù)據(jù)。
使用詞云和散點(diǎn)圖,您還可以可視化用于自然語(yǔ)言處理的文本數(shù)據(jù)和模型。
詞云:展示對(duì)工廠報(bào)告中的原始文本數(shù)據(jù)和清洗后文本數(shù)據(jù)應(yīng)用詞頻分析的結(jié)果。
AI 建模
您可以訓(xùn)練多種類型的機(jī)器學(xué)習(xí)模型來(lái)執(zhí)行分類或回歸任務(wù)。例如,您只需使用幾行 MATLAB 代碼即可創(chuàng)建和訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò) (LSTM)。您還可以使用深度網(wǎng)絡(luò)設(shè)計(jì)器創(chuàng)建和訓(xùn)練深度學(xué)習(xí)模型,并使用準(zhǔn)確度、損失和驗(yàn)證度量等繪圖監(jiān)控模型訓(xùn)練過(guò)程。

深度網(wǎng)絡(luò)設(shè)計(jì)器,用于以交互方式構(gòu)建、可視化、編輯和訓(xùn)練 NLP 網(wǎng)絡(luò)。
與其從頭開(kāi)始創(chuàng)建深度學(xué)習(xí)模型,不如使用預(yù)訓(xùn)練模型。您可以將預(yù)訓(xùn)練模型直接應(yīng)用于您的自然語(yǔ)言處理任務(wù),也可以根據(jù)該任務(wù)對(duì)預(yù)訓(xùn)練模型進(jìn)行調(diào)整。借助 MATLAB,您可以從 MATLAB 深度學(xué)習(xí)模型中心訪問(wèn)預(yù)訓(xùn)練網(wǎng)絡(luò)。例如,您可以使用 VGGish 模型從音頻信號(hào)中提取特征嵌入,使用 wav2vec 模型進(jìn)行語(yǔ)音到文本轉(zhuǎn)錄,而使用 BERT 模型進(jìn)行文檔分類。您還可以使用 importNetworkFromTensorFlow 或 importNetworkFromPyTorch 函數(shù)從 TensorFlow 或 PyTorch 導(dǎo)入模型。
-
人工智能
+關(guān)注
關(guān)注
1817文章
50091瀏覽量
265207 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136916 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
630瀏覽量
14665
原文標(biāo)題:什么是自然語(yǔ)言處理 (NLP)?將計(jì)算語(yǔ)言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來(lái)處理語(yǔ)音和文本數(shù)據(jù)
文章出處:【微信號(hào):MATLAB,微信公眾號(hào):MATLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云知聲論文入選自然語(yǔ)言處理頂會(huì)EMNLP 2025
HarmonyOSAI編程自然語(yǔ)言代碼生成
北斗生態(tài)環(huán)境監(jiān)測(cè)站:讀懂自然的 “語(yǔ)言”
小白學(xué)大模型:國(guó)外主流大模型匯總
【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】5- 無(wú)需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開(kāi)發(fā)板上搭建 MCP 服務(wù)器,自然語(yǔ)言輕松控板
Transformer架構(gòu)概述
人工智能浪潮下,制造企業(yè)如何借力DeepSeek實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型?
云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025
詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人的工作原理
自然語(yǔ)言處理的發(fā)展歷程和應(yīng)用場(chǎng)景
新概念51單片機(jī)C語(yǔ)言教程入門、提高、開(kāi)發(fā)、拓展全攻略
自然語(yǔ)言提示原型在英特爾Vision大會(huì)上首次亮相
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析
自然語(yǔ)言處理NLP的概念和工作原理
評(píng)論