91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-06-28 21:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

虛擬助手在用戶發(fā)出命令后就會(huì)作出語(yǔ)音回復(fù)。而生成語(yǔ)音回復(fù)的技術(shù)被稱為文本轉(zhuǎn)語(yǔ)音(TTS)。

TTS 應(yīng)用能夠讓輔助器具使用者訪問(wèn)更多內(nèi)容,因此非常實(shí)用。最新的 TTS 技術(shù)可以從一段幾分鐘的音頻數(shù)據(jù)中生成合成聲音,非常適合僅留存了有限錄音的失音者。

事實(shí)上,TTS 的應(yīng)用正在因技術(shù)進(jìn)步而不斷增長(zhǎng):

  • 在幾毫秒內(nèi)運(yùn)行端到端 TTS 流程,以實(shí)現(xiàn)自然互動(dòng)。

  • 在推斷時(shí)自定義 AI 模型和流程,以產(chǎn)生具有表現(xiàn)力的合成語(yǔ)音。

  • 部署在所有云、數(shù)據(jù)中心、邊緣或嵌入式設(shè)備上。

本文將說(shuō)明語(yǔ)音合成系統(tǒng)如何運(yùn)作,然后介紹 TTS 技術(shù)的常見(jiàn)用途和新用途。

語(yǔ)音合成系統(tǒng)如何工作

顧名思義,文本轉(zhuǎn)語(yǔ)音或語(yǔ)音合成是將書(shū)面文本轉(zhuǎn)換成自然、類似人類的語(yǔ)音音頻的過(guò)程。在端到端 TTS 流程中用于實(shí)現(xiàn)這一轉(zhuǎn)換的關(guān)鍵模型和模塊包括:

  • 文本規(guī)范化和預(yù)處理:將數(shù)字和縮略語(yǔ)變成文字。

  • 文本編碼:將文本轉(zhuǎn)換為輸入到聲譜圖生成器的編碼向量。

  • 聲譜圖生成器:從編碼文本向量中生成聲譜圖。

  • 語(yǔ)音編碼器模型:輸入聲譜圖并生成一個(gè)人們可以聽(tīng)到的合成語(yǔ)音。

一般來(lái)說(shuō),TTS 是虛擬助手、數(shù)字人和服務(wù)機(jī)器人等應(yīng)用的最終階段。

常見(jiàn)的 TTS 應(yīng)用

2021 年 IDC 對(duì)話式 AI 采用情況調(diào)查共調(diào)研了 251 家公司,其中 74.5% 在語(yǔ)音對(duì)話式 AI 解決方案中使用 TTS,68.5% 在無(wú)障礙解決方案中使用 TTS(圖 1)。

9681e75a-15b4-11ee-962d-dac502259ad0.png

圖 1. IDC 關(guān)于常見(jiàn) TTS 用例的調(diào)查

語(yǔ)音合成的功能用途正得到許多行業(yè)的認(rèn)可,人們可能已經(jīng)看到過(guò)以下 TTS 技術(shù)用例。

虛擬網(wǎng)紅

虛擬網(wǎng)紅正在改變未來(lái)與企業(yè)或名人溝通的方式。虛擬網(wǎng)紅也稱為虛擬品牌大使或品牌代言人,它們可以協(xié)助公司推廣產(chǎn)品和服務(wù),名人也可以通過(guò)它們與粉絲保持全天候的聯(lián)系。

在這些用例中 TTS 技術(shù)生成了自定義聲音,然后被整合到動(dòng)畫(huà)虛擬網(wǎng)紅或數(shù)字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項(xiàng) TTS 功能可用于網(wǎng)站及閱讀類應(yīng)用,為喜歡音頻類節(jié)目的人帶來(lái)了福音。有視覺(jué)障礙的人也可以使用文字?jǐn)⑹雎?tīng)到他們喜歡的內(nèi)容。

TTS 用于在這些應(yīng)用程序上將文本轉(zhuǎn)換成語(yǔ)音并朗讀出來(lái)。但這項(xiàng)工作并不像表面上那么簡(jiǎn)單。為了提升收聽(tīng)體驗(yàn),此類應(yīng)用的聲音必須抑揚(yáng)頓挫、富有節(jié)奏和表現(xiàn)力。

常見(jiàn)的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性問(wèn)題

對(duì)于生活在現(xiàn)代社會(huì)的人來(lái)說(shuō),最流行和具有吸引力的媒介莫過(guò)于音頻和視頻內(nèi)容。TTS 技術(shù)可以幫助內(nèi)容創(chuàng)作者為視頻配音或創(chuàng)建播客。

為了獲得更多的受眾,創(chuàng)作者還可以使用 TTS 技術(shù)將博客、新聞文章等文本內(nèi)容轉(zhuǎn)換成音頻。

TTS 的使用十分靈活,用戶可以在變聲器等應(yīng)用中改變語(yǔ)音的音調(diào)、節(jié)奏和音量,使聲音變得更具表現(xiàn)力。

獨(dú)特的 TTS 應(yīng)用

除了這些日常應(yīng)用外,企業(yè)家們正在探索各種新穎的 TTS 應(yīng)用。下文將介紹開(kāi)發(fā)獨(dú)特語(yǔ)音合成技術(shù)的公司。

用于智慧醫(yī)院的語(yǔ)音通知亭:Artisight

Artisight 是一個(gè)應(yīng)用于醫(yī)院的物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò),可改善醫(yī)院的運(yùn)營(yíng)、財(cái)務(wù)業(yè)績(jī)和患者體驗(yàn)。該公司幫助美國(guó)許多頂尖醫(yī)院提高運(yùn)營(yíng)效率,同時(shí)通過(guò)任務(wù)自動(dòng)化給患者帶來(lái)更好的體驗(yàn),比如呼叫患者到掛號(hào)窗口和化驗(yàn)等。

醫(yī)院可以使用 TTS 技術(shù)與患者和訪客分享有關(guān)醫(yī)院服務(wù)、設(shè)施位置和一般健康公告的信息。該技術(shù)也可以使用多種語(yǔ)言幫助可能不會(huì)說(shuō)醫(yī)院當(dāng)?shù)卣Z(yǔ)言的人。

視頻 1. Artisight “診所協(xié)調(diào)員”解決方案演示

上面的視頻演示了醫(yī)院通知亭的文字轉(zhuǎn)語(yǔ)音技術(shù)如何讀出患者排隊(duì)單上的號(hào)碼。

挑戰(zhàn)和解決方案

過(guò)去,醫(yī)院接待人員需要手動(dòng)登記患者信息并在輪到患者就診時(shí)通知他們。這種耗時(shí)的登記流程降低了醫(yī)院的效率和患者的滿意度。

Artisight 開(kāi)發(fā)的語(yǔ)音簽到、通知亭等智慧醫(yī)院解決方案可提升患者的體驗(yàn)。

Artisight 和 NVIDIA Riva 賦能的通知亭實(shí)現(xiàn)了有效、快速的患者登記流程,將等待時(shí)間縮短了一半并避免了數(shù)據(jù)輸入錯(cuò)誤,最終提高了員工的工作效率和患者的滿意度。

為數(shù)字虛擬形象提供類似人類聲音:NVIDIA

TTS 技術(shù)使計(jì)算機(jī)能夠?qū)?shū)面文字轉(zhuǎn)換成語(yǔ)音,進(jìn)而讓數(shù)字人能夠“開(kāi)口說(shuō)話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任,數(shù)字人所說(shuō)的話必須高度準(zhǔn)確,尤其是當(dāng)它們被用于教育、娛樂(lè)或其他互動(dòng)用途時(shí)。使用 TTS 技術(shù)生成自然、類似人類的語(yǔ)音可以幫助數(shù)字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虛擬形象Toy Jensen 能夠理解黃仁勛的問(wèn)題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創(chuàng)建。

視頻 2. 用于構(gòu)建實(shí)時(shí)、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺(tái)

挑戰(zhàn)和解決方案

開(kāi)發(fā)用于數(shù)字人的 TTS 可能有一定的難度,尤其是在創(chuàng)造自然、真實(shí)的語(yǔ)音方面,并且難度取決于地區(qū)和語(yǔ)言。這是因?yàn)槭褂脗鹘y(tǒng)和統(tǒng)計(jì)算法創(chuàng)建的 TTS 系統(tǒng)可能導(dǎo)致語(yǔ)音聽(tīng)起來(lái)像是機(jī)器人或機(jī)械發(fā)出的,而用戶對(duì)此可能不會(huì)“買賬”。

此外,由于 TTS 系統(tǒng)受數(shù)據(jù)集、所使用的模型和模塊類型等諸多因素影響,因此要為數(shù)字人應(yīng)用創(chuàng)建靈活的自適應(yīng)語(yǔ)音具有一定的難度。這使開(kāi)發(fā)者難以生成具有細(xì)微差別和富有表現(xiàn)力的語(yǔ)音。

最后,數(shù)字人需要在不犧牲質(zhì)量的情況下實(shí)時(shí)生成大量語(yǔ)音,因此創(chuàng)建高效、可擴(kuò)展的 TTS 系統(tǒng)至關(guān)重要。

NVIDIA 為數(shù)字人和虛擬形象生成了自定義語(yǔ)音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開(kāi)發(fā)只需短短幾毫秒就能實(shí)時(shí)運(yùn)行且精準(zhǔn)的 TTS 流程,滿足實(shí)現(xiàn)自然語(yǔ)音的必要條件,還可以靈活調(diào)整音調(diào)、持續(xù)時(shí)間和音量等,使生成的聲音更具表現(xiàn)力。

開(kāi)始使用語(yǔ)音合成

用戶現(xiàn)在就可以開(kāi)始將 TTS 功能集成到應(yīng)用中,例如閱讀內(nèi)容或生成數(shù)字網(wǎng)紅獨(dú)特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開(kāi)發(fā)出提供高準(zhǔn)確度并進(jìn)行高性能推理的應(yīng)用。

點(diǎn)擊“閱讀原文”試用 NVIDIA Riva TTS。

掃描下方海報(bào)二維碼觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放,主題演講中文字幕版已上線,了解 AI、圖形及其他領(lǐng)域的最新進(jìn)展!


原文標(biāo)題:了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4089

    瀏覽量

    99232

原文標(biāo)題:了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文了解語(yǔ)音AI的運(yùn)作方式

    語(yǔ)音 AI 是對(duì)話式 AI 的一個(gè)子集,包括可將人類語(yǔ)音轉(zhuǎn)換為文本的自動(dòng)語(yǔ)音識(shí)別 (ASR) 和文本轉(zhuǎn)語(yǔ)
    的頭像 發(fā)表于 02-27 16:10 ?345次閱讀
    一文<b class='flag-5'>了解語(yǔ)音</b>AI的運(yùn)作方式

    什么是語(yǔ)音芯片串口AT指令?實(shí)現(xiàn)智能語(yǔ)音交互的核心技術(shù)詳解

    什么是AT指令A(yù)T指令是一套基于串行通信接口的標(biāo)準(zhǔn)化指令集,專門用于聲音播放芯片與其他設(shè)備之間的數(shù)據(jù)傳輸和控制操作。這種通信協(xié)議通過(guò)簡(jiǎn)單的文本命令格式,實(shí)現(xiàn)了對(duì)語(yǔ)音
    的頭像 發(fā)表于 11-10 12:53 ?455次閱讀
    什么是<b class='flag-5'>語(yǔ)音</b>芯片串口AT指令?實(shí)現(xiàn)智能<b class='flag-5'>語(yǔ)音</b>交互的核心技術(shù)詳解

    語(yǔ)音報(bào)警器:TTS語(yǔ)音播報(bào),云平臺(tái)邏輯自控

    TTS語(yǔ)音播報(bào)報(bào)警器是一種集成了傳統(tǒng)報(bào)警器和TTS(文本轉(zhuǎn)語(yǔ)音)技術(shù)的智能設(shè)備。清晰、準(zhǔn)確地用人類語(yǔ)言播報(bào)報(bào)警原因、位置、狀態(tài)等具體信息。 工作原理 文本
    的頭像 發(fā)表于 10-29 16:31 ?766次閱讀

    端到端語(yǔ)音交互數(shù)據(jù) 精準(zhǔn)賦能語(yǔ)音大模型進(jìn)階

    語(yǔ)音大模型從“能識(shí)別”向“懂語(yǔ)境”跨越的關(guān)鍵階段,高質(zhì)量場(chǎng)景化語(yǔ)音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語(yǔ)音識(shí)別數(shù)據(jù)集采用孤立標(biāo)注,在語(yǔ)音-文本
    的頭像 發(fā)表于 09-11 17:17 ?747次閱讀

    代碼即自由:開(kāi)源TTS文本轉(zhuǎn)語(yǔ)音應(yīng)用賦予開(kāi)發(fā)者終極掌控權(quán)

    對(duì)于開(kāi)發(fā)者而言,開(kāi)源TTS應(yīng)用的意義遠(yuǎn)超工具本身——它提供完整的源代碼訪問(wèn)權(quán)限,允許深度修改底層算法、優(yōu)化語(yǔ)音質(zhì)量、適配特殊硬件。代碼即自由,開(kāi)發(fā)者可隨心所欲打造獨(dú)一無(wú)二的TTS引擎,滿足極致需求
    的頭像 發(fā)表于 08-15 14:03 ?549次閱讀
    代碼即自由:開(kāi)源TTS<b class='flag-5'>文本</b><b class='flag-5'>轉(zhuǎn)語(yǔ)音</b>應(yīng)用賦予開(kāi)發(fā)者終極掌控權(quán)

    語(yǔ)音輸出模塊是什么?自控語(yǔ)音播報(bào)

    語(yǔ)音輸出模塊(VoiceOutputModule)是一種將數(shù)字信號(hào)或文本信息轉(zhuǎn)換為人類可聽(tīng)語(yǔ)音的硬件/軟件組件。相當(dāng)于設(shè)備的“嘴巴”,讓機(jī)器能夠通過(guò)聲音與人進(jìn)行交互。 一、工作原理 1.輸入接收
    的頭像 發(fā)表于 08-13 15:20 ?940次閱讀

    飛書(shū)開(kāi)源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗(yàn)

    近日,飛書(shū)正式將其自研的富文本組件庫(kù)?RichTextVista(簡(jiǎn)稱“RTV”)開(kāi)源,并上線OpenHarmony?三方庫(kù)中心倉(cāng)。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開(kāi)放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?649次閱讀
    飛書(shū)開(kāi)源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗(yàn)

    Air8000 TTS開(kāi)源,語(yǔ)音合成從此“零距離”!

    文本轉(zhuǎn)語(yǔ)音)——是一種將書(shū)面文本轉(zhuǎn)換為人類可聽(tīng)語(yǔ)音的技術(shù),通過(guò)算法和模型模擬人類發(fā)聲,實(shí)現(xiàn)機(jī)器“說(shuō)話”。其核心目標(biāo)是生成自然、流暢且富有表現(xiàn)力的語(yǔ)音
    的頭像 發(fā)表于 07-03 16:33 ?627次閱讀
    Air8000 TTS開(kāi)源,<b class='flag-5'>語(yǔ)音</b>合成從此“零距離”!

    英語(yǔ)單詞學(xué)習(xí)頁(yè)面+單詞朗讀實(shí)現(xiàn) -- 【2】單詞朗讀實(shí)現(xiàn) ##HarmonyOS SDK AI##

    有網(wǎng)絡(luò)支持,但是在原生鴻蒙下,是支持通過(guò)端側(cè)AI,在本地進(jìn)行文字轉(zhuǎn)語(yǔ)音的輸出的,這里使用到的是Core Speech Kit中的文本轉(zhuǎn)語(yǔ)音功能 官網(wǎng)的代碼很全,這里我也沒(méi)必要去貼代碼,只是分享一下開(kāi)發(fā)
    發(fā)表于 06-29 23:26

    從代碼到聲音,Air8000 TTS開(kāi)源應(yīng)用開(kāi)啟創(chuàng)作新紀(jì)元!

    轉(zhuǎn)語(yǔ)音)——是一種將書(shū)面文本轉(zhuǎn)換為人類可聽(tīng)語(yǔ)音的技術(shù),通過(guò)算法和模型模擬人類發(fā)聲,實(shí)現(xiàn)機(jī)器“說(shuō)話”。其核心目標(biāo)是生成自然、流暢且富有表現(xiàn)力的語(yǔ)音。 ? TTS可廣泛應(yīng)用于各個(gè)領(lǐng)域,通過(guò)
    的頭像 發(fā)表于 06-27 17:06 ?584次閱讀
    從代碼到聲音,Air8000 TTS開(kāi)源應(yīng)用開(kāi)啟創(chuàng)作新紀(jì)元!

    NRK3301 AI語(yǔ)音芯片:玩具語(yǔ)音交互革新方案

    玩具AI語(yǔ)音芯片開(kāi)發(fā)在玩具智能化浪潮中,九芯電子的NRK3301AI語(yǔ)音芯片憑借卓越性能與獨(dú)特藍(lán)牙連接功能,為玩具行業(yè)帶來(lái)創(chuàng)新應(yīng)用方案,重塑玩具與用戶的互動(dòng)模式。一、NRK3301芯片核心優(yōu)勢(shì)賦能玩
    的頭像 發(fā)表于 05-09 13:49 ?1010次閱讀
    NRK3301 AI<b class='flag-5'>語(yǔ)音</b>芯片:玩具<b class='flag-5'>語(yǔ)音</b>交互革新方案

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    、Qwen2.5-0.5B 以及 Qwen2.5-1.5B等豐富大模型資源,以及文本轉(zhuǎn)語(yǔ)音模型(melotts)、語(yǔ)音轉(zhuǎn)文本模型(paraformer)和視覺(jué)模型(yoloV8、byt
    發(fā)表于 04-25 17:59

    labview語(yǔ)音轉(zhuǎn)文字

    labview語(yǔ)音轉(zhuǎn)文字怎么實(shí)現(xiàn),目前在論壇上找到了文字轉(zhuǎn)語(yǔ)音
    發(fā)表于 04-07 19:44

    【CW32模塊使用】語(yǔ)音合成播報(bào)模塊

    。SYN6288E 通過(guò)異步串 口(UART)通訊方式,接收待合成的文本數(shù)據(jù),實(shí)現(xiàn)文本語(yǔ)音(或 TTS 語(yǔ)音)的轉(zhuǎn)換。
    的頭像 發(fā)表于 03-29 17:25 ?1223次閱讀
    【CW32模塊使用】<b class='flag-5'>語(yǔ)音</b>合成播報(bào)模塊

    把樹(shù)莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過(guò)程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?989次閱讀
    把樹(shù)莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!