91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Nemotron模型構(gòu)建語(yǔ)音驅(qū)動(dòng)RAG智能體

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2026-01-14 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

構(gòu)建智能體不僅僅是“調(diào)用API”,而是需要將檢索、語(yǔ)音、安全和推理組件整合在一起,使其像一個(gè)統(tǒng)一并互相協(xié)同的系統(tǒng)一樣運(yùn)行。每一層都有自己的接口、延遲限制和集成挑戰(zhàn),一旦跨過(guò)簡(jiǎn)單的原型就會(huì)開(kāi)始感受到這些挑戰(zhàn)。

在本教程中,您將學(xué)習(xí)如何使用2026年CES發(fā)布的最新NVIDIANemotron語(yǔ)音、RAG、安全和推理模型,去構(gòu)建一個(gè)帶有護(hù)欄的語(yǔ)音驅(qū)動(dòng)RAG智能體。最終您將擁有具備如下功能的一個(gè)智能體:

聽(tīng)取語(yǔ)音輸入

使用多模態(tài)RAG將智能體錨定在您的數(shù)據(jù)之上

長(zhǎng)上下文推理

在響應(yīng)之前應(yīng)用護(hù)欄規(guī)則

音頻的形式返回安全答案

您可以在本地GPU上進(jìn)行開(kāi)發(fā),然后將相同的代碼部署到可擴(kuò)展的NVIDIA環(huán)境中,無(wú)論是托管的GPU服務(wù)、按需云工作區(qū),還是生產(chǎn)就緒的API運(yùn)行時(shí),都無(wú)需更改工作流。

先決條件

在開(kāi)始這次教程之前,您需要:

用于云托管推理模型的NVIDIA API密鑰(免費(fèi)獲取)

本地部署需要:

約20GB的磁盤空間

至少24GB顯存的NVIDIA GPU

支持Bash的操作系統(tǒng)(Ubuntu、macOS或Windows Subsystem for Linux)

Python 3.10+環(huán)境

一小時(shí)的空閑時(shí)間

您將構(gòu)建的內(nèi)容

wKgZO2lm8ZKALMGrAABMgnDwyPA469.jpg

圖1.帶有RAG和安全護(hù)欄的語(yǔ)音智能體的端到端工作流。

組件 模型 目的
ASR nemotron-speech-streaming-en-0.6b 超低延遲語(yǔ)音輸入
嵌入 llama-nemotron-embed-vl-1b-v2 文本和圖像的語(yǔ)義搜索
重排序 llama-nemotron-rerank-vl-1b-v2 將檢索準(zhǔn)確率提高6-7%
安全 llama-3.1-nemotron-safety-guard-8b-v3 多語(yǔ)言內(nèi)容審核
視覺(jué)語(yǔ)言 nemotron-nano-12b-v2-vl 根據(jù)上下文描述圖像
推理 nemotron-3-nano-30b-a3b 1M token高效推理

表1.本教程中用于構(gòu)建語(yǔ)音智能體的Nemotron模型概覽,包括用于ASR、嵌入、重排序、視覺(jué)語(yǔ)言、長(zhǎng)上下文推理和內(nèi)容安全的模型。

步驟1:設(shè)置環(huán)境

要構(gòu)建語(yǔ)音智能體,您需要同時(shí)運(yùn)行多個(gè)NVIDIANemotron模型(如上所示)。語(yǔ)音、嵌入、重排序和安全模型通過(guò)Transformer和NVIDIA NeMo在本地運(yùn)行,推理模型則使用NVIDIA API。

uvsync--all-extras

配套的Notebook會(huì)處理所有的環(huán)境配置。設(shè)置用于云托管推理模型的NVIDIA API密鑰,即可開(kāi)始使用。

步驟2:使用多模態(tài)RAG構(gòu)建智能體基座

檢索是可靠智能體的支柱。借助全新的LlamaNemotron多模態(tài)嵌入和重排序模型,您可以嵌入文本、圖像(包括掃描文檔),并直接將其存儲(chǔ)在向量索引中,無(wú)需額外的預(yù)處理。這可以檢索推理模型所依賴的真實(shí)上下文,確保智能體參考的是真實(shí)企業(yè)數(shù)據(jù)而非產(chǎn)生幻覺(jué)。

image.png

圖2.具有離線索引和在線檢索的多模態(tài)RAG管道。

llama-nemotron-embed-vl-1b-v2模型支持三種輸入模式——純文本、純圖像和圖像與文本的組合,讓您能夠?qū)募兾谋疚臋n到幻燈片和技術(shù)圖表的各種內(nèi)容進(jìn)行索引。在本教程中,我們將嵌入一個(gè)同時(shí)包含圖像和文本的示例。該嵌入模型通過(guò)Transformers加載,并啟用flash attention:

from transformers import AutoModel
 
model = AutoModel.from_pretrained(
    "nvidia/llama-nemotron-embed-vl-1b-v2",
    trust_remote_code=True,
    device_map="auto"
).eval()
 
# Embed queries and documents
query_embedding = model.encode_queries(["How does AI improve robotics?"])
doc_embeddings = model.encode_documents(texts=documents)

在初始檢索后,llama-nemotron-rerank-vl-1b-v2模型會(huì)結(jié)合文本和圖像對(duì)結(jié)果進(jìn)行重新排序,以確保檢索后的準(zhǔn)確性更高。在基準(zhǔn)測(cè)試中,添加重排序可將準(zhǔn)確率提高約6-7%,這在精度要求較高的場(chǎng)景中是一項(xiàng)顯著的提升。

步驟3:使用NemotronSpeech ASR添加實(shí)時(shí)語(yǔ)音功能

錨定完成后,下一步是通過(guò)語(yǔ)音實(shí)現(xiàn)自然交互。

image.png

圖3.基于NVIDIANemotronSpeech ASR的ASR管道

Nemotron Speech ASR是一個(gè)流式模型,基于Granary數(shù)據(jù)集中數(shù)萬(wàn)小時(shí)的英語(yǔ)音頻及多種公開(kāi)語(yǔ)音語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,同時(shí)經(jīng)過(guò)優(yōu)化實(shí)現(xiàn)超低延遲的實(shí)時(shí)解碼。開(kāi)發(fā)者將音頻流式傳輸?shù)紸SR服務(wù),在收到文本結(jié)果后,將輸出直接輸入到RAG管道中。

import nemo.collections.asr as nemo_asr
 
model = nemo_asr.models.ASRModel.from_pretrained(
    "nvidia/nemotron-speech-streaming-en-0.6b"
)
transcription = model.transcribe(["audio.wav"])[0]

該模型具備可配置的延遲設(shè)置,在80毫秒的最低延遲設(shè)置下,平均字詞錯(cuò)誤率(Word Error Rate, WER)為8.53%,延遲為1.1秒時(shí),WER進(jìn)一步降低至7.16%,這一表現(xiàn)顯著低于語(yǔ)音助手、現(xiàn)場(chǎng)工具和免提工作流所要求的一秒關(guān)鍵閾值。

步驟4:使用Nemotron內(nèi)容安全和PII模型強(qiáng)制執(zhí)行安全措施

跨地區(qū)和跨語(yǔ)言運(yùn)行的AI智能體不僅必須理解有害內(nèi)容,還必須理解文化細(xì)微差別和上下文相關(guān)的含義。

image.png

圖4.使用NVIDIA LlamaNemotronSafety Guard模型的安全管道,檢測(cè)安全或不安全內(nèi)容。

llama-3.1-nemotron-safety-guard-8b-v3模型可提供20多種語(yǔ)言的多語(yǔ)言內(nèi)容安全,并可對(duì)23個(gè)安全類別進(jìn)行實(shí)時(shí)PII檢測(cè)。

該模型通過(guò)NVIDIA API提供,無(wú)需額外托管基礎(chǔ)設(shè)施,即可輕松添加輸入和輸出過(guò)濾。它可以基于語(yǔ)言、方言和文化背景區(qū)分含義不同但表達(dá)相似的短語(yǔ),這在處理可能受到干擾或非正式的實(shí)時(shí)ASR輸出時(shí)尤為重要。

from langchain_nvidia_ai_endpoints import ChatNVIDIA
 
safety_guard = ChatNVIDIA(model="nvidia/llama-3.1-nemotron-safety-guard-8b-v3")
result = safety_guard.invoke([
    {"role": "user", "content": query},
    {"role": "assistant", "content": response}
])

步驟5:使用Nemotron3 Nano添加長(zhǎng)上下文推理功能

NVIDIANemotron3 Nano為智能體提供推理能力,結(jié)合了高效的混合專家(MoE)機(jī)制和混合Mamba-Transformer架構(gòu),支持1M token上下文窗口。這使得模型能夠在單個(gè)推理請(qǐng)求中合并檢索到的文檔、用戶歷史記錄和中間步驟。

image.png

圖5.使用NVIDIANemotron3 Nano的推理管道。

當(dāng)檢索到的文檔包含圖像時(shí),智能體首先使用NemotronNano VL來(lái)描述這些圖像,然后將所有信息傳遞給Nemotron3 Nano以獲得最終的響應(yīng)。該模型支持可選的思考模式,可用于更復(fù)雜的推理任務(wù):

completion = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": prompt}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)

輸出在返回之前會(huì)通過(guò)安全過(guò)濾器,將您的檢索增強(qiáng)型查找轉(zhuǎn)換為具有完整推理能力的智能體。

步驟6:使用LangGraph將所有內(nèi)容連接起來(lái)

LangGraph將整個(gè)工作流編排為一個(gè)有向圖。每個(gè)節(jié)點(diǎn)處理一個(gè)階段,即轉(zhuǎn)錄、檢索、圖像描述、生成和安全檢查,組件之間有清晰的切換:

VoiceInput→ASR→Retrieve→Rerank→DescribeImages→Reason→Safety→Response

智能體狀態(tài)流經(jīng)每個(gè)節(jié)點(diǎn),并在過(guò)程中積累上下文。這種結(jié)構(gòu)簡(jiǎn)化了添加條件邏輯、重試失敗步驟或基于內(nèi)容類型進(jìn)行分支。配套Notebook中的完整實(shí)現(xiàn)展示了如何定義每個(gè)節(jié)點(diǎn),并將其連接到生產(chǎn)就緒型管道中。

步驟7:部署智能體

智能體能夠在本地機(jī)器上穩(wěn)定運(yùn)行后,您就可以將其部署到任意位置。在需要分布式攝取、嵌入生成或大規(guī)模批量向量索引時(shí),可使用NVIDIA DGX Spark。Nemotron模型可以進(jìn)行優(yōu)化、打包并作為NVIDIANIM運(yùn)行(一套預(yù)構(gòu)建的GPU加速推理微服務(wù),專為在NVIDIA基礎(chǔ)設(shè)施上部署AI模型而設(shè)計(jì)),并可直接從Spark調(diào)用以進(jìn)行可擴(kuò)展的處理。當(dāng)您需要按需的GPU工作空間且無(wú)需系統(tǒng)設(shè)置直接運(yùn)行Notebook,同時(shí)還希望獲得可與團(tuán)隊(duì)輕松共享的Spark集群遠(yuǎn)程訪問(wèn)時(shí),可以選擇使用NVIDIA Brev。

如果您想查看適用于物理機(jī)器人助手的相同部署模式,請(qǐng)查看基于Nemotron和DGX Spark的ReachyMini個(gè)人助理教程。

兩個(gè)環(huán)境都使用相同的代碼路徑,因此您可以由實(shí)驗(yàn)階段平穩(wěn)過(guò)渡到生產(chǎn)環(huán)境,所需的修改極少。

您所構(gòu)建的內(nèi)容

現(xiàn)在,您擁有一個(gè)由Nemotron驅(qū)動(dòng)的智能體核心結(jié)構(gòu),該結(jié)構(gòu)由四個(gè)核心組件組成:用于語(yǔ)音交互的語(yǔ)音ASR、用于實(shí)現(xiàn)信息真實(shí)性的多模態(tài)RAG、考慮文化差異的多語(yǔ)言內(nèi)容安全過(guò)濾,以及用于長(zhǎng)上下文推理的Nemotron3 Nano。相同的代碼適用于本地開(kāi)發(fā)到生產(chǎn)級(jí)GPU集群運(yùn)行。

組件 目的
多模態(tài)RAG 在真實(shí)的企業(yè)數(shù)據(jù)中錨定響應(yīng)
語(yǔ)音ASR 實(shí)現(xiàn)自然語(yǔ)音交互
安全 跨語(yǔ)言和文化背景識(shí)別不安全內(nèi)容
長(zhǎng)上下文LLM 通過(guò)推理生成準(zhǔn)確的響應(yīng)

表2.用于構(gòu)建基于Nemotron的語(yǔ)音智能體的四個(gè)組件概覽——多模態(tài)RAG、語(yǔ)音ASR、多語(yǔ)言內(nèi)容安全和長(zhǎng)上下文推理。

本教程中的每個(gè)部分都與Notebook中的相應(yīng)部分直接對(duì)應(yīng),因此您可以逐步實(shí)施和測(cè)試該流程。一旦端到端工作正常,相同的代碼即可擴(kuò)展到生產(chǎn)部署。

關(guān)于作者

Chris Alexiuk 是 NVIDIA 的深度學(xué)習(xí)開(kāi)發(fā)者倡導(dǎo)者,負(fù)責(zé)創(chuàng)建技術(shù)資源,幫助開(kāi)發(fā)者使用 NVIDIA 提供的一整套強(qiáng)大 AI 工具。Chris 擁有機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)背景,對(duì)大型語(yǔ)言模型的一切充滿熱情。

Isabel Hulseman 是 NVIDIA 的綜合營(yíng)銷經(jīng)理,專注于人工智能軟件。她的興趣領(lǐng)域包括用于構(gòu)建、定制和部署大型語(yǔ)言模型和生成人工智能應(yīng)用程序的加速推理和解決方案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109702
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3750

    瀏覽量

    52091
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    469

    瀏覽量

    11604

原文標(biāo)題:CES 2026 | 如何使用 RAG 和安全護(hù)欄構(gòu)建語(yǔ)音智能體

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「基于大模型RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    今天學(xué)習(xí)大模型RAG 檢索增強(qiáng)生成技術(shù)Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)。這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系,使得計(jì)算機(jī)能夠更好地處
    發(fā)表于 01-17 19:53

    【「基于大模型RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+第一章初體驗(yàn)

    《基于大模型RAG應(yīng)用開(kāi)發(fā)與優(yōu)化》試讀報(bào)告 ——第一章:了解大模型RAG 近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,大
    發(fā)表于 02-07 10:42

    【「基于大模型RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】RAG基本概念

    的安全性和數(shù)據(jù)的保密性。 未來(lái)以RAG為代表的人工智能發(fā)展,將開(kāi)辟一條新通道,過(guò)去,各廠家追求實(shí)用的大模型等,但在實(shí)際用時(shí)總有些不稱手。通過(guò)RAG技術(shù),將已有技術(shù)推廣到各行各業(yè),實(shí)現(xiàn)新
    發(fā)表于 02-08 00:22

    NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對(duì) NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進(jìn)的指導(dǎo)和獎(jiǎng)勵(lì)
    的頭像 發(fā)表于 09-06 14:59 ?1299次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b>-4 340B<b class='flag-5'>模型</b>幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    NVIDIA推出開(kāi)放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開(kāi)放式 Llama Nemotron 大語(yǔ)言模型和 Cosmos Nemotron 視覺(jué)語(yǔ)言模型可在任何
    的頭像 發(fā)表于 01-09 11:11 ?1507次閱讀

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜
    發(fā)表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放推理 AI <b class='flag-5'>模型</b>系列,助力開(kāi)發(fā)者和企業(yè)<b class='flag-5'>構(gòu)建</b>代理式 AI 平臺(tái)

    企業(yè)使用NVIDIA NeMo微服務(wù)構(gòu)建AI智能平臺(tái)

    已發(fā)布的 NeMo 微服務(wù)可與合作伙伴平臺(tái)集成,作為創(chuàng)建 AI 智能構(gòu)建模塊,使用商業(yè)智能與強(qiáng)大的邏輯推理模型 (包括
    的頭像 發(fā)表于 04-27 15:05 ?1278次閱讀

    ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級(jí)助手

    Apriel Nemotron 15B 開(kāi)源大語(yǔ)言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron
    的頭像 發(fā)表于 05-12 15:37 ?922次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1771次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    NVIDIA Nemotron模型如何推動(dòng)AI發(fā)展

    Nemotron 開(kāi)源技術(shù)能夠幫助開(kāi)發(fā)者與企業(yè)構(gòu)建強(qiáng)大的通用和專用智能系統(tǒng)。
    的頭像 發(fā)表于 10-13 11:12 ?1014次閱讀

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用

    搜索和調(diào)用外部 AI 模型的 SQL 原生 API。NVIDIA 與微軟共同將 SQL Server 2025 與 NVIDIA Nemotron
    的頭像 發(fā)表于 12-01 09:31 ?788次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> <b class='flag-5'>RAG</b>和Microsoft SQL Server 2025<b class='flag-5'>構(gòu)建</b>高性能AI應(yīng)用

    NVIDIA Nemotron如何助力企業(yè)構(gòu)建專業(yè)AI智能

    隨著代理式 AI 的日益普及,開(kāi)源模型與工具日趨成熟,各行業(yè)企業(yè)都在思考:我們?cè)?b class='flag-5'>構(gòu)建怎樣的 AI 智能來(lái)解決自身獨(dú)特的業(yè)務(wù)挑戰(zhàn)?
    的頭像 發(fā)表于 12-13 09:14 ?800次閱讀

    NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語(yǔ)音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動(dòng)出行領(lǐng)域的行業(yè)級(jí)開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1328次閱讀

    NVIDIA 推出 Nemotron 3 系列開(kāi)放模型

    token 數(shù)。 ● Nemotron 通過(guò)先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)以及大規(guī)模并行多環(huán)境后訓(xùn)練,實(shí)現(xiàn)了卓越的準(zhǔn)確率。 ● NVIDIA 率先推出整套前沿的開(kāi)放模型、訓(xùn)練數(shù)據(jù)集及強(qiáng)化學(xué)習(xí)環(huán)境與
    的頭像 發(fā)表于 12-16 09:27 ?622次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Nemotron</b> 3 系列開(kāi)放<b class='flag-5'>模型</b>

    利用NVIDIA Nemotron開(kāi)放模型構(gòu)建智能文檔處理系統(tǒng)

    基于 NVIDIA Nemotron 開(kāi)放模型的 AI 驅(qū)動(dòng)文檔智能,增強(qiáng)科學(xué)研究、金融和法律等領(lǐng)域工作流。
    的頭像 發(fā)表于 02-25 11:21 ?378次閱讀