91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全新 NVIDIA NeMo Retriever微服務(wù)大幅提升LLM的準(zhǔn)確性和吞吐量

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-07-26 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

企業(yè)能夠通過(guò)提供檢索增強(qiáng)生成功能的生產(chǎn)就緒型 NVIDIA NIM 推理微服務(wù),充分挖掘業(yè)務(wù)數(shù)據(jù)的價(jià)值。這些微服務(wù)現(xiàn)已集成到 Cohesity、DataStax、NetApp 和 Snowflake 平臺(tái)中。

如果缺乏準(zhǔn)確性,生成式 AI 應(yīng)用不但無(wú)法產(chǎn)生價(jià)值,有時(shí)甚至還會(huì)產(chǎn)生負(fù)價(jià)值。而準(zhǔn)確性的根源在于數(shù)據(jù)。

為幫助開發(fā)者高效獲取最佳的專有數(shù)據(jù),以便為他們的 AI 應(yīng)用生成知識(shí)淵博的回答,NVIDIA 宣布推出四項(xiàng)全新的 NVIDIA NeMo Retriever NIM 推理微服務(wù)。

Llama 3.1 模型集也同期發(fā)布。當(dāng)與適用于該模型集的 NVIDIA NIM 推理微服務(wù)相結(jié)合時(shí),NeMo Retriever NIM 推理微服務(wù)不僅能夠使企業(yè)擴(kuò)展到代理式 AI 工作流(在此工作流中,AI 應(yīng)用可以在最少的干預(yù)或監(jiān)督下準(zhǔn)確運(yùn)行),還能夠提供極為精準(zhǔn)的檢索增強(qiáng)生成(RAG)。

通過(guò) NeMo Retriever,企業(yè)可以將自定義模型與各種業(yè)務(wù)數(shù)據(jù)無(wú)縫連接,并使用 RAG 為 AI 應(yīng)用作出高度準(zhǔn)確的回答。這套生產(chǎn)就緒型微服務(wù)實(shí)際上為創(chuàng)建高度準(zhǔn)確的 AI 應(yīng)用提供了非常精準(zhǔn)的信息檢索功能。

例如當(dāng)開發(fā)者創(chuàng)建 AI 智能體和客服聊天機(jī)器人、分析安全漏洞或從復(fù)雜的供應(yīng)鏈信息中提取洞察時(shí),NeMo Retriever 能夠大幅提高模型的準(zhǔn)確性和吞吐量。

NIM 推理微服務(wù)實(shí)現(xiàn)了高性能、易于使用的企業(yè)級(jí)推理。開發(fā)者能夠使用 NeMo Retriever NIM 微服務(wù)并充分利用自己的數(shù)據(jù),來(lái)獲得這一切。

已正式發(fā)布的全新 NeMo Retriever 向量化和重排序 NIM 微服務(wù)如下:

NV-EmbedQA-E5-v5:一個(gè)常用社區(qū)基礎(chǔ)向量化模型,針對(duì)文本問(wèn)答檢索進(jìn)行了優(yōu)化

NV-EmbedQA-Mistral7B-v2:一個(gè)常用多語(yǔ)言社區(qū)基礎(chǔ)模型,針對(duì)文本向量化功能進(jìn)行了微調(diào),以實(shí)現(xiàn)高度準(zhǔn)確的問(wèn)答

Snowflake-Arctic-Embed-L:一個(gè)經(jīng)過(guò)優(yōu)化的社區(qū)模型

NV-RerankQA-Mistral4B-v3:一個(gè)常用社區(qū)基礎(chǔ)模型,針對(duì)文本重排功能進(jìn)行了微調(diào),以實(shí)現(xiàn)高度準(zhǔn)確的問(wèn)答

這些模型加入到 NIM 微服務(wù)集中,可通過(guò) NVIDIA API 目錄輕松訪問(wèn)。

向量化和重排序模型

NeMo Retriever NIM 微服務(wù)包含兩種模型——向量化和重排序模型,以及確保透明度和可靠性的開放式和商業(yè)化服務(wù)。

2b24405a-4a67-11ef-b8af-92fbcf53809c.png

RAG 管線示例:使用了適用于 Llama 3.1 的 NVIDIA NIM 微服務(wù)以及適用于客服 AI 聊天機(jī)器人應(yīng)用的 NeMo Retriever 向量化和重排序 NIM 微服務(wù)

向量化模型在將文本、圖像、圖表和視頻等各種數(shù)據(jù)轉(zhuǎn)化為數(shù)字向量,并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中的同時(shí),獲取其含義和細(xì)微差別。與傳統(tǒng)的大語(yǔ)言模型(LLM)相比,向量化模型速度更快且計(jì)算成本更低。

重排序模型可獲取數(shù)據(jù)和查詢,隨后根據(jù)數(shù)據(jù)與查詢的相關(guān)性對(duì)數(shù)據(jù)進(jìn)行評(píng)分。與向量化模型相比,這類模型雖然計(jì)算復(fù)雜且速度較慢,但能大幅提高準(zhǔn)確性。

NeMo Retriever 提供了兩全其美的解決方案。開發(fā)者可以充分利用 NeMo Retriever 建立一個(gè)能夠給企業(yè)提供最有用、最準(zhǔn)確結(jié)果的流程。該流程先通過(guò)向量化 NIM 檢索巨大的數(shù)據(jù)網(wǎng),然后使用重排序 NIM 篩選結(jié)果的相關(guān)性。

通過(guò) NeMo Retriever,開發(fā)者能夠使用先進(jìn)的開源商業(yè)模型,構(gòu)建極為精準(zhǔn)的文本問(wèn)答檢索管線。與其他模型相比,NeMo Retriever NIM 微服務(wù)在企業(yè)問(wèn)答中提供的不準(zhǔn)確答案減少了 30%。

2b430cba-4a67-11ef-b8af-92fbcf53809c.png

NeMo Retriever 向量化 NIM 和向量化 + 重排序 NIM 微服務(wù)性能與詞法搜索和替代向量的對(duì)比。

熱門用例

無(wú)論是 RAG 和 AI 智能體解決方案,還是數(shù)據(jù)驅(qū)動(dòng)的分析,NeMo Retriever 都能夠?yàn)楦鞣N AI 應(yīng)用提供助力。

這套微服務(wù)可用于創(chuàng)建能夠作出準(zhǔn)確、情境感知響應(yīng)的智能聊天機(jī)器人、幫助分析海量數(shù)據(jù)以識(shí)別安全漏洞、從復(fù)雜的供應(yīng)鏈信息中提取洞察等。它們還能勝任許多其他任務(wù),比如幫助 AI 賦能的零售業(yè)購(gòu)物顧問(wèn)提供自然、個(gè)性化的購(gòu)物體驗(yàn)。

針對(duì)這些用例的 NVIDIA AI 工作流為開發(fā)生成式 AI 賦能的技術(shù)提供了一個(gè)簡(jiǎn)單且能夠獲得支持的起點(diǎn)。

數(shù)十家 NVIDIA 數(shù)據(jù)平臺(tái)合作伙伴正在使用 NeMo Retriever NIM 微服務(wù)提高其 AI 模型的準(zhǔn)確性和吞吐量。

DataStax 在其 Astra DB 和超融合平臺(tái)中集成了 NeMo Retriever 向量化 NIM 微服務(wù),使企業(yè)能夠?yàn)榭蛻籼峁?zhǔn)確的、經(jīng)過(guò)生成式 AI 增強(qiáng)的 RAG 功能,并加快產(chǎn)品上市時(shí)間。

Cohesity 將在其 AI 產(chǎn)品 Cohesity Gaia 中集成 NVIDIA NeMo Retriever 微服務(wù),以便幫助客戶通過(guò) RAG 將自己的數(shù)據(jù)用于驅(qū)動(dòng)富有洞察力和變革性的生成式 AI 應(yīng)用。

Kinetica 將使用 NVIDIA NeMo Retriever 開發(fā) LLM 智能體。這些智能體能夠通過(guò)自然語(yǔ)言與復(fù)雜的網(wǎng)絡(luò)進(jìn)行交互,從而對(duì)中斷或漏洞作出更快的響應(yīng),將洞察轉(zhuǎn)化為即時(shí)行動(dòng)。

NetApp 正在與 NVIDIA 合作,將 NeMo Retriever 微服務(wù)連接到其智能數(shù)據(jù)基礎(chǔ)設(shè)施上的 EB 級(jí)數(shù)據(jù)。所有 NetApp ONTAP 客戶都將能夠“與他們的數(shù)據(jù)無(wú)縫對(duì)話”,在不影響數(shù)據(jù)安全或隱私的情況下獲得專屬的業(yè)務(wù)洞察。

NVIDIA 全球系統(tǒng)集成商合作伙伴包括埃森哲、德勤、Infosys、LTTS、Tata Consultancy Services、Tech Mahindra 和 Wipro 等,以及服務(wù)交付合作伙伴 Data Monsters、EXLService (愛爾蘭) Limited、Latentview、Quantiphi、Slalom、SoftServe 和 Tredence 正在開發(fā)各種服務(wù),幫助企業(yè)將 NeMo Retriever NIM 微服務(wù)添加到他們的 AI 管線中。

與其他 NIM 微服務(wù)一起使用

NeMo Retriever NIM 微服務(wù)可與 NVIDIA Riva NIM 微服務(wù)一起使用。后者為各行各業(yè)的語(yǔ)音 AI 應(yīng)用提供強(qiáng)大助力,增強(qiáng)了客戶服務(wù)并且讓數(shù)字人變得栩栩如生。

即將以 Riva NIM 微服務(wù)形式推出的新模型包括:適用于文本轉(zhuǎn)語(yǔ)音應(yīng)用的 FastPitch 和 HiFi-GAN;適用于多語(yǔ)言神經(jīng)機(jī)器翻譯的 Megatron;以及適用于自動(dòng)語(yǔ)音識(shí)別的破紀(jì)錄 NVIDIA Parakeet 系列模型。

NVIDIA NIM 微服務(wù)既可以組合使用,也可以單獨(dú)使用,為開發(fā)者提供構(gòu)建 AI 應(yīng)用的模塊化方法。這些微服務(wù)還可以在云端、本地或混合環(huán)境中與社區(qū)模型、NVIDIA 模型或用戶自定義模型集成,為開發(fā)者帶來(lái)了更大的靈活性。

NVIDIA NIM 微服務(wù)現(xiàn)在可在 ai.nvidia.com 上獲取。企業(yè)可通過(guò) NVIDIA AI Enterprise 軟件平臺(tái)使用 NIM 將 AI 應(yīng)用部署到生產(chǎn)中。

NIM 微服務(wù)可在客戶首選的加速基礎(chǔ)設(shè)施上運(yùn)行,包括亞馬遜云科技、谷歌云、Microsoft Azure 和 Oracle Cloud Infrastructure 的云實(shí)例,以及思科、戴爾科技、慧與、聯(lián)想和 Supermicro 等全球服務(wù)器制造合作伙伴的 NVIDIA 認(rèn)證系統(tǒng)。

NVIDIA 開發(fā)者計(jì)劃會(huì)員很快將能夠免費(fèi)使用 NIM,以在他們首選的基礎(chǔ)設(shè)施上進(jìn)行研究、開發(fā)和測(cè)試。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31109

    瀏覽量

    222398
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109810
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301543
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1338

原文標(biāo)題:上吧,AI!全新 NVIDIA NeMo Retriever 微服務(wù)大幅提升 LLM 的準(zhǔn)確性和吞吐量

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用“分區(qū)”來(lái)面對(duì)超大數(shù)據(jù)集和超大吞吐量

    分區(qū)(partitions) 也被稱為 分片(sharding),通常采用對(duì)數(shù)據(jù)進(jìn)行分區(qū)的方式來(lái)增加系統(tǒng)的 可伸縮,以此來(lái)面對(duì)非常大的數(shù)據(jù)集或非常高的吞吐量,避免出現(xiàn)熱點(diǎn)。
    的頭像 發(fā)表于 12-30 16:40 ?214次閱讀
    用“分區(qū)”來(lái)面對(duì)超大數(shù)據(jù)集和超大<b class='flag-5'>吞吐量</b>

    確保X光設(shè)備檢測(cè)的有效準(zhǔn)確性的關(guān)鍵技巧

    行業(yè)關(guān)注的重點(diǎn)。本文將圍繞“X光設(shè)備檢測(cè)有效”和“X光檢測(cè)準(zhǔn)確性提升”這兩個(gè)核心長(zhǎng)尾關(guān)鍵詞,深入解析5個(gè)關(guān)鍵技巧,幫助企業(yè)提升設(shè)備性能,降低誤差率,滿足更高的檢測(cè)需求。無(wú)論是制造業(yè)的
    的頭像 發(fā)表于 11-18 11:27 ?409次閱讀

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和
    的頭像 發(fā)表于 11-03 14:48 ?1005次閱讀

    電能質(zhì)量在線監(jiān)測(cè)裝置定位諧波源的準(zhǔn)確性有多高?

    網(wǎng)、測(cè)點(diǎn)密集、同步精準(zhǔn)),準(zhǔn)確性可達(dá)到 90% 以上;在復(fù)雜場(chǎng)景(如廣域電網(wǎng)、背景諧波波動(dòng)大、測(cè)點(diǎn)稀疏),準(zhǔn)確性可能降至 70% 以下。以下從 “準(zhǔn)確性分級(jí)、關(guān)鍵影響因素、提升路徑”
    的頭像 發(fā)表于 09-26 15:20 ?617次閱讀

    使用羅德與施瓦茨CMX500的吞吐量應(yīng)用層測(cè)試方案

    5G NR(New Radio)吞吐量應(yīng)用層測(cè)試是評(píng)估5G網(wǎng)絡(luò)性能的一個(gè)重要方面,它主要關(guān)注的是在實(shí)際應(yīng)用條件下,用戶能夠體驗(yàn)到的數(shù)據(jù)傳輸速率。這種測(cè)試通常包括了對(duì)下行鏈路和上行鏈路的吞吐量進(jìn)行測(cè)量,以確保網(wǎng)絡(luò)可以滿足各種應(yīng)用場(chǎng)景的需求,比如高清視頻流、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)
    的頭像 發(fā)表于 09-02 13:56 ?7964次閱讀
    使用羅德與施瓦茨CMX500的<b class='flag-5'>吞吐量</b>應(yīng)用層測(cè)試方案

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹 TensorRT-
    的頭像 發(fā)表于 08-27 12:29 ?1769次閱讀
    TensorRT-<b class='flag-5'>LLM</b>中的分離式<b class='flag-5'>服務(wù)</b>

    Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工具,高效構(gòu)建
    的頭像 發(fā)表于 08-20 14:21 ?868次閱讀

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語(yǔ)言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?4282次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Blackwell GPU上優(yōu)化DeepSeek R1<b class='flag-5'>吞吐量</b>

    測(cè)縫計(jì)測(cè)量數(shù)據(jù)的準(zhǔn)確性和校準(zhǔn)方法解析

    在結(jié)構(gòu)物安全監(jiān)測(cè)領(lǐng)域,數(shù)據(jù)準(zhǔn)確性是評(píng)估工程健康狀態(tài)的核心依據(jù)。振弦式測(cè)縫計(jì)作為主流裂縫監(jiān)測(cè)設(shè)備,其測(cè)量精度直接影響裂縫發(fā)展趨勢(shì)的判斷。那么如何確保測(cè)縫計(jì)測(cè)量數(shù)據(jù)的準(zhǔn)確性以及如何校準(zhǔn)?下面是南京峟思給
    的頭像 發(fā)表于 07-07 13:56 ?681次閱讀
    測(cè)縫計(jì)測(cè)量數(shù)據(jù)的<b class='flag-5'>準(zhǔn)確性</b>和校準(zhǔn)方法解析

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?1910次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    CY7C65211 作為 SPI 從機(jī)模式工作時(shí)每秒的最大吞吐量是多少?

    CY7C65211 作為 SPI 從機(jī)模式工作時(shí)每秒的最大吞吐量是多少? 有實(shí)際的測(cè)試數(shù)據(jù)嗎?
    發(fā)表于 05-27 07:38

    如何在Visual Studio 2022中運(yùn)行FX3吞吐量基準(zhǔn)測(cè)試工具?

    我正在嘗試運(yùn)行 John Hyde 的書“SuperSpeed by Design”中的 FX3 吞吐量基準(zhǔn)測(cè)試工具。 但是,我面臨一些困難,希望得到任何指導(dǎo)。 具體來(lái)說(shuō),我正在使用 Visual
    發(fā)表于 05-13 08:05

    ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級(jí)助手

    Apriel Nemotron 15B 開源大語(yǔ)言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron 開放數(shù)據(jù)集以及 ServiceNow 專業(yè)
    的頭像 發(fā)表于 05-12 15:37 ?934次閱讀

    FX3進(jìn)行讀或?qū)懖僮鲿r(shí)CS信號(hào)拉低,在讀或?qū)懲瓿珊驝S置高,對(duì)吞吐量有沒(méi)有影響?

    從盡可能提高吞吐量的角度看,在進(jìn)行讀或?qū)懖僮鲿r(shí)CS信號(hào)拉低,在讀或?qū)懲瓿珊驝S置高,對(duì)吞吐量有沒(méi)有影響,還是應(yīng)該CS一直拉低比較好。
    發(fā)表于 05-08 07:13

    企業(yè)使用NVIDIA NeMo微服務(wù)構(gòu)建AI智能體平臺(tái)

    已發(fā)布的 NeMo 微服務(wù)可與合作伙伴平臺(tái)集成,作為創(chuàng)建 AI 智能體的構(gòu)建模塊,使用商業(yè)智能與強(qiáng)大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務(wù)。
    的頭像 發(fā)表于 04-27 15:05 ?1305次閱讀