91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

中國智能語音服務產(chǎn)業(yè),最快沖過終點的將是誰呢?

DPVg_AI_era ? 來源:lq ? 2019-01-11 09:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里云升級實時在線中文語音合成服務,結合傳統(tǒng)語音合成技術與深度學習端到端系統(tǒng)各自的優(yōu)勢,顯著提升語音合成穩(wěn)定性及表現(xiàn)力。新智元專訪達摩院語音實驗室負責人鄢志杰及高級算法專家雷鳴,深度解讀核心技術。鄢志杰認為,智能語音正處于爆發(fā)前夜,2019年語音AI將在特定領域通過圖靈測試。

鄢志杰,達摩院語音實驗室負責人,中國科學技術大學博士,IEEE高級會員。長期擔任語音領域頂級學術會議及期刊專家評審。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員。

開始閱讀前,先來聽聽下面這段機器合成的語音:

當聽到稚嫩的童聲念完“雞蛋雞蛋……雞蛋~”的時候,阿里巴巴達摩院語音實驗室負責人鄢志杰還有坐在他一旁的高級算法專家雷鳴,都不約而同地激動起來,興奮之情溢于言表:

“這在當年我們做學生研究TTS (Text-To-Speech, 文本到語音) 時是完全不可想象的,”鄢志杰和雷鳴感嘆道:“有點穿越,機器能夠發(fā)出這種聲音,這種韻律?!?/p>

讓機器發(fā)出這種聲音和韻律的,就是他們向新智元展示的 Knowledge-Aware Neural TTS (KAN-TTS),達摩院最新推出的語音合成技術,現(xiàn)已通過阿里云提供在線的實時中文語音合成服務。

根據(jù)阿里內(nèi)部測評結果,即便只基于單個發(fā)音人 (single speaker) 的數(shù)據(jù),KAN-TTS 合成的語音都能達到與原始音頻錄音 (Recording) 95%以上的相似度;采用多發(fā)音人 (multi-speaker) 數(shù)據(jù)以及遷移學習技術后,特定發(fā)音人數(shù)據(jù)的自然度能獲得97%以上的相似度。

當前業(yè)界商用語音合成系統(tǒng) (紅框標識) 合成語音與錄音 (Recording) 相似度大約在85~%90%的水平。達摩院內(nèi)部評測結果顯示,KAN-TTS技術令合成語音自然度顯著提升。詳見后文“詳解達摩院KAN-TTS技術”。

橫向比較業(yè)界現(xiàn)有的各項中文語音合成服務的效果后,鄢志杰博士認為,達摩院語音實驗室這次交出了一份滿意的答卷。

“我們正處于智能語音技術又一次爆發(fā)的前夜,感覺就像是2010年前后那段時間,深度學習的出現(xiàn)讓 ASR (自動語音識別) 準確率提高了20%~30%,一下子把整個 ASR 能力帶向產(chǎn)業(yè),”鄢志杰告訴新智元。

“現(xiàn)在,大家沿著這一條新的技術路線,不斷添磚加瓦,未來幾年會看到大量新方法的提出,相關的服務也會再進一步。”

升級實時在線語音合成服務:傳統(tǒng)語音合成+端到端完美融合

一直以來,在機器學習領域存在一個爭論:

是不是可以完全摒棄領域知識 (domain knowledge),只依靠強大的模型以及海量數(shù)據(jù),就能得到足夠好的模型?

“在近幾年流行的端到端 (End2End) 技術中,研究人員給出的答案似乎接近于‘是’。”達摩院語音實驗室高級算法專家雷鳴告訴新智元。

雷鳴,達摩院語音實驗室高級算法專家,中科大博士,目前負責語音識別、語音合成、語音喚醒等前沿技術研發(fā)工作,在加入阿里巴巴之前,他曾任微軟STC語音科學家。

“但在語音合成領域,現(xiàn)在我們給出的答案是‘否’——只有依賴足夠多的領域知識,加上強大的模型和海量的數(shù)據(jù),才能夠構建足夠好的語音合成模型?!?/p>

近幾年,由深度學習推動的 End2End 技術發(fā)展迅速。語音合成 (TTS) 領域,谷歌的 Tacotron、DeepMind 的 WaveNet,還有百度的 ClariNet,研究人員不斷提出更好、更快的端到端語音合成模型。

端到端 (End2End) 技術摒棄了傳統(tǒng)語音合成技術前端-后端多模型多模塊框架,采用統(tǒng)一的模型,試圖直接從輸入文本到輸出波形。理論上,這樣能模擬任何聲音 (排除了對聲波建模的固有損失),大幅減輕乃至去掉了對語音、語言學專業(yè)知識的依賴。

然而,現(xiàn)實情況是,盡管端到端TTS系統(tǒng)能夠得到相對流暢、表現(xiàn)力更好的合成語音,但由于需要大量計算力支持等原因,目前難以在移動端實現(xiàn)。

此外,語音合成領域,訓練數(shù)據(jù)的獲取需要較高的成本投入。除了流程繁瑣——從前期準備、選擇發(fā)音人、找錄音場地、錄制到數(shù)據(jù)清洗和標注,更麻煩的是,現(xiàn)在的語音合成數(shù)據(jù)庫往往是單一風格的,而語音合成服務的效果穩(wěn)定性依賴錄音風格的一致性,如何在長期大量錄音中始終保持同一風格內(nèi)部的一致性,對整個錄音項目來說是一個不小的挑戰(zhàn)。在這種高要求條件下,10小時的有效語音合成數(shù)據(jù),可能需要花費數(shù)月的錄制時間,這也對發(fā)音人保持自身狀態(tài) (尤其是嗓子的狀態(tài)) 提出了較高的要求。

因此,目前市面上主流的商用語音合成產(chǎn)品和服務,絕大多數(shù)都使用傳統(tǒng)TTS框架構建,并不能夠提供高表現(xiàn)力的語音合成效果,用戶往往很容易聽出合成語音的機械感。

傳統(tǒng)TTS系統(tǒng)中,輸入文本經(jīng)過語音信號處理、文本分析等多個模塊,根據(jù)多個domain knowledge,形成了rich context linguistic information,后端模型根據(jù)前面的結果,結合acoustic feature進行建模及預測,最終再經(jīng)過聲碼器 (Vocoder) 得到合成語音。

傳統(tǒng)語音合成 (TTS) 技術與端到端 (End2End) 語音合成技術對比

有沒有可能結合傳統(tǒng) TTS 系統(tǒng)和 End2End 系統(tǒng)各自的優(yōu)勢?

達摩院語音實驗室提出了 Knowledge-Aware Neural TTS (KAN-TTS) 技術,在傳統(tǒng)語音合成系統(tǒng)的基礎上,充分利用領域知識,從而構建了高表現(xiàn)力、高穩(wěn)定性的在線中文實時語音合成系統(tǒng)。

不僅如此,KAN-TTS 還利用多個發(fā)音人的大量數(shù)據(jù),訓練得到多發(fā)音人模型,并利用遷移學習進一步提高合成效果,最終達到逼近真人錄音的自然度。

未來5年連接100億臺設備,語音是AIoT關鍵

2018年3月底的云棲大會,時任阿里云總裁的胡曉明在會上宣布:阿里巴巴全面進軍 IoT,這是繼電商、金融、物流、云計算之后,阿里的一條新的主賽道。阿里云 IoT 的定位是物聯(lián)網(wǎng)基礎設施的搭建者,阿里云計劃在未來 5 年內(nèi)連接 100 億臺設備。

到了2019年,AIoT——人工智能 (AI) 與物聯(lián)網(wǎng) (IoT) 在實際應用中落地融合——成為行業(yè)關鍵詞,作為萬物互聯(lián)以及AIoT的一個重要入口,智能語音賽道上已是百舸爭流。

作為達摩院語音實驗室負責人,鄢志杰認為智能語音在阿里進軍 IoT 的研究和實踐中有三個重點:

構建有深度、全鏈路、多模態(tài)的關鍵技術棧

產(chǎn)出低成本、易復制的智能化 IoT 方案

打造標桿硬件是“手段”,建設基礎平臺是“目的”

在這個指導思想下,“我們仔細對比了不同的inference方案,考慮到使用場景要求,對快速擴展的要求,甚至客戶不同機器的部署能力,最終選擇以非異構計算的形式進行inference,計算全部基于CPU完成?!崩坐Q告訴新智元。

一旦系統(tǒng)能在CPU上跑,自然就可以做大規(guī)模的彈性部署,周期成本也就變得極富吸引力??紤]到服務的可擴展性,團隊還在模型層面、底層計算框架和指令集層面進行了相關的優(yōu)化。

通過提出KAN-TTS,并發(fā)布基于這一技術的實時在線語音合成云服務,達摩院語音實驗室在傳統(tǒng)TTS系統(tǒng)和End2End系統(tǒng)中找到了一個杠桿。

這也是為什么他們敢于在達摩院2019年十大技術預測中說,“語音AI在特定領域通過圖靈測試”。

阿里的 KAN-TTS 并非市面上公有云中唯一可用的中文語音合成服務,科大訊飛、百度、騰訊、京東、小米、思必馳、云知聲、Rokid、出門問問……都發(fā)布了相關產(chǎn)品,并明確將智能語音+IoT定為公司發(fā)展關鍵。

國際上,還有谷歌基于 Google Cloud 的 Text-to-Speech 服務 (共有 30 種語音,并有多種語言和語言變體可供選擇),亞馬遜 AWS 的 Polly (含有 28 種語言,58 款可用聲音),以及微軟 Azure 的 Text to Speech 服務 (標準版含 45 種語言和 75 種 以上的聲音,包括男聲和女聲,還能調(diào)節(jié)參數(shù),例如速度、音調(diào)、音量、發(fā)音以及其他停頓)——當然,這些服務里全都包括中文 (普通話)。

對于更多的開發(fā)者和中小企業(yè)而言,剩下的問題就是選擇用哪家的服務,或者更干脆地說,上哪家的云。

達摩院科研成果轉(zhuǎn)化秘訣:實驗精神加一點商業(yè)Sense

在提倡“用研究創(chuàng)造價值”的達摩院,技術商業(yè)化是各個實驗室負責人工作的另一大重點。

當被問及達摩院語音實驗室技術商業(yè)化的“套路”時,鄢志杰表示,阿里最大的不同,是要求技術人員也具備一定的商業(yè)sense。

“你并不需要是商業(yè)奇才,”鄢志杰告訴新智元:“但什么樣的技術能真正幫助到這些場景,憑借我們的智慧,完全可以排除掉一些絕對不可能成功的選項?!?/p>

“這樣做就提高了成功的幾率。好,然后再在讓這些種子去慢慢發(fā)芽,觀察它們的長勢,再來做決定?!?/p>

在他的形容中,接下來的迭代是一個非??茖W的實驗過程,就像做優(yōu)化,基于當前的這個點,找到一個所謂的梯度,這個梯度就是你要工作的方向,然后跑那么一小步,檢驗目標函數(shù)有沒有被優(yōu)化,然后再來做調(diào)整。

“要說套路的話,我覺得這跟我們做語音識別、做語音合成其實是一樣的套路?!?/p>

鄢志杰強調(diào),未來的語音交互將是多模態(tài)的、無處不在的交互。單靠算法不足以形成足夠持續(xù)的競爭力,特別是越來越多的算法走向開源,這就要求研究團隊將數(shù)據(jù)、硬件以及好的商業(yè)模式相結合,具體到智能語音交互,則是“與智能硬件廠商劃定一個有效的邊界”。

技術、產(chǎn)業(yè)和商業(yè)要形成一個閉環(huán)。技術到產(chǎn)品有鴻溝,而即使有了一個產(chǎn)品之后,如果賣不出去,接觸不到大量的用戶,也很難收集到有效的反饋?!八?,我們希望將一項技術做成產(chǎn)品,成規(guī)模地推到商業(yè),吸引大量用戶,然后用戶這邊反饋到產(chǎn)品的種種問題,我們再在此基礎上對技術進行迭代?!?/p>

鄢志杰和他的同事都相信無處不在的智能語音交互是未來,并朝著這個方向去努力。過去幾年技術上的一系列成果,比如達摩院兄弟部門的工作、谷歌BERT模型,“驚喜就沒有斷過”。這也讓他有種“趕上了技術浪潮”的感覺,但跨過技術到了產(chǎn)業(yè)與商業(yè)以后,這個“潮”還是不是“潮”,鄢志杰認為很難說。

“今天那么多的所謂的AI技術,到底在產(chǎn)品層面能給用戶帶來多大的好處,在商業(yè)層面上是不是真的能夠稱其為一個business,而且是一個可持續(xù)、可健康發(fā)展的business。我們是在大膽假設,小心求證?!?/p>

至于KAN-TTS,“模型開放出來以后,厲害的工程團隊用不了多久就能復現(xiàn)”,鄢志杰和雷鳴都笑著說。

“我們期待大家在上面繼續(xù)貢獻?!?/p>

詳解達摩院 KAN-TTS 技術

根據(jù)達摩院語音實驗室的介紹,KAN-TTS 技術結合了傳統(tǒng)語音合成系統(tǒng)和End2End語音合成系統(tǒng)各自的優(yōu)勢,主要包括這幾個方面的不同:

Linguistic domain knowledge:傳統(tǒng)語音合成系統(tǒng)利用了文本相關數(shù)據(jù)積累了大量的domain knowledge,因此可以獲得較穩(wěn)定的合成結果;而沒有利用該domain knowledge的End2End語音合成系統(tǒng),在合成穩(wěn)定性方面就不如傳統(tǒng)語音合成系統(tǒng)。近年來,有一些研究工作就是基于標注發(fā)音的文本數(shù)據(jù)針對多音字發(fā)音消歧方面進行優(yōu)化,也有些研究工作針對傳統(tǒng)語音合成系統(tǒng)中的停頓預測進行優(yōu)化。傳統(tǒng)系統(tǒng)可以輕易的利用這樣的研究成果,而End2End系統(tǒng)沒有利用到這樣的工作。在KAN-TTS中,我們利用了海量文本相關數(shù)據(jù)構建了高穩(wěn)定性的domain knowledge分析模塊。例如,在多音字消歧模塊中,我們利用了包含多音字的上百萬文本/發(fā)音數(shù)據(jù)訓練得到多音字消歧模型,從而獲得更準確的發(fā)音。 如果像End2end系統(tǒng)那樣完全基于語音數(shù)據(jù)進行訓練,光是包含多音字的數(shù)據(jù)就需要上千小時,這對于常規(guī)數(shù)據(jù)在幾小時到幾十小時的語音合成領域而言,是不可接受的。

Acoustic Model:傳統(tǒng)語音合成系統(tǒng)對于duration和聲學特征是分開建模的,合成時需要先預測duration信息,再根據(jù)預測得到的duration預測聲學特征,而End2End系統(tǒng)利用了seq2seq模型,對所有聲學特征進行統(tǒng)一建模及預測,這樣可以更好的對時長和音調(diào)高低等韻律變化進行建模。在傳統(tǒng)語音合成領域,一直有研究人員在嘗試更好的對韻律進行建模,例如但受限于系統(tǒng)框架和模型建模能力,在傳統(tǒng)語音合成系統(tǒng)中始終沒能獲得令人滿意的結果。而在End2End系統(tǒng)中,基于更強大的seq2seq模型,充分利用了語音韻律的domain knowledge,最終得以產(chǎn)生高表現(xiàn)力的合成語音。在KAN-TTS中,考慮到深度學習技術的快速進展以及End2End模型的合成效果,我們也采用了seq2seq模型作為聲學模型,同時結合海量數(shù)據(jù),進一步提高了整體模型的效果和穩(wěn)定性。

Acoustic feature和Vocoder:在傳統(tǒng)語音合成領域,也一直有研究人員在探索更好的聲學特征和聲碼器。但由于傳統(tǒng)語音合成系統(tǒng)中的聲學特征和聲碼器都是基于語音編解碼中的source-filter機理產(chǎn)生的,有較強的理論假設,在實際不同發(fā)音人的數(shù)據(jù)上,天然會丟失掉一部分信息,為后面整體建模以及預測合成語音帶來了一定困擾,最終產(chǎn)生的整體音質(zhì)也較差??紤]到信息的損失和音質(zhì),在KAN-TTS系統(tǒng)中,我們采用了和End2End系統(tǒng)類似的FFT spectrum作為聲學特征,信息上損失更小,同時采用更強大的聲碼器恢復波形,因此在音質(zhì)方面具有明顯優(yōu)勢。

KAN-TTS基本架構

KAN-TTS的基本框圖

在KAN-TTS的基本架構中,輸入文本經(jīng)過與傳統(tǒng)語音合成系統(tǒng)類似的模塊得到相關的linguistic信息,接著由linguistic信息得到的矢量序列輸入進入seq2seq模型,進行訓練和建模。

需要說明的是,KAN-TTS并沒有完全采用所有的linguistic信息。經(jīng)過細致分析和實驗對比,我們發(fā)現(xiàn)采用所有的linguistic信息并不能帶來更好的結果,有時甚至會變差。因此,我們最終采用了如上圖所示的domain knowledge作為后端模型的輸入。

更多領域知識

此外,KAN-TTS還融合了其他多個方面的domain knowledge,這其中最重要的是基于中文的linguistic knowledge、基于海量語音數(shù)據(jù)的聲學空間構建,以及針對特定發(fā)音人、特定風格的遷移學習技術。

①基于海量語音數(shù)據(jù)的模型構建

構建多發(fā)音人語音合成系統(tǒng)的方式

發(fā)音人信息作為另外一種輸入特征和Encoder的輸出結合,輸入到Attention&Decoder模塊里面。經(jīng)過這樣的處理,Encoder模塊只是用來對文本相關信息進行特征提取,發(fā)音人這樣的聲學信息只作用于Attention&Decoder,并不影響Encoder的結果。在實際實現(xiàn)過程中,我們也對比了不同的信息結合方式,采用如上圖所示的結合方式可以獲得最好的合成效果。

最終,我們利用了上百個人的幾百小時數(shù)據(jù),構建了基于海量數(shù)據(jù)的多發(fā)音人語音合成系統(tǒng)。相對而言,在傳統(tǒng)語音合成系統(tǒng)中,單發(fā)音人數(shù)據(jù)量往往在幾個小時到幾十小時不等。利用海量發(fā)音人的數(shù)據(jù)構建的語音合成系統(tǒng),可以提供更穩(wěn)定的合成效果,為最終構建高穩(wěn)定性語音合成產(chǎn)品打下了基礎。

②針對特定發(fā)音人、特定風格的遷移學習技術

由于采用了大量不同發(fā)音人數(shù)據(jù)進行語音合成系統(tǒng)構建,雖然我們利用了多發(fā)音人的大量數(shù)據(jù),得以產(chǎn)生高穩(wěn)定性合成語音。但我們發(fā)現(xiàn)對特定發(fā)音人或者特定風格而言,其效果距離真實錄音而言還是具有一定差距。因此,我們參考了其他領域?qū)τ柧殧?shù)據(jù)比例的研究,在多發(fā)音人模型的基礎上進一步嘗試了針對特定發(fā)音人、特定風格數(shù)據(jù)的遷移學習。實驗表明,疊加遷移學習后,合成語音的效果可以進一步提高,逼近真實錄音的效果。

多發(fā)音人模型實際訓練過程

上圖中顯示了實際的訓練過程。首先,我們利用多個發(fā)音人的所有數(shù)據(jù)構建多發(fā)音人模型,在這期間,發(fā)音人信息作為輸入信息在訓練過程中輸入到了Attention&Decoder模塊;基于訓練得到的多發(fā)音人模型,我們根據(jù)需要,針對發(fā)音人n進行遷移學習,最終得到發(fā)音人 n 的單發(fā)音人模型。

非異構計算的工程優(yōu)化

隨著深度學習技術的進步,模型的建模能力越來越強大,隨之而來的計算量需求也越來越高。近年來,很多公司都采用異構計算進行模型的inference,例如采用高性能或者inference專用GPU,甚至采用FPGA/ASIC這樣的專用芯片技術來加速inference部分的計算,服務實際需求。

對語音合成而言,大量的需求是需要進行實時計算的。例如,在交互場景上,語音合成服務的響應時間直接影響到用戶的體驗,往往需要從發(fā)起合成請求到返回第一個語音包的時間在200ms左右,即首包latency。另一方面,很多場景的語音合成的請求量的變化是非常大的,例如小說和新聞播報場景,白天和傍晚的請求量往往較高,而深夜的請求量往往很低,這又對部署的便捷性和服務的快速擴展性帶來了要求。

我們仔細對比了不同的inference方案,考慮到我們最終的使用場景要求,對快速擴展的要求,甚至客戶不同機器的部署能力,我們最終選擇以非異構計算的形式進行inference計算,即不采用任何異構計算的模塊,包括GPU/FPGA/ASIC等。

根據(jù)KAN-TTS的特性,以及語音合成服務的需求,我們針對性的做了若干優(yōu)化,包括:

模型層面的優(yōu)化:為了降低首包latency,我們改進了模型結構,替換了BLSTM等模塊,從而大幅度提高了首包latency。此外,我們針對計算量較大的模塊進行優(yōu)化和替代,從而大幅度優(yōu)化了整體計算效率。

框架和指令集優(yōu)化:為了更好的利用硬件性能,我們嘗試了不同的底層加速框架,并且針對性的對指令集結合實際計算需求進行了優(yōu)化。另外,我們還對個別超大向量計算進行了針對性的優(yōu)化。

最終,經(jīng)過我們的一系列優(yōu)化,效果如下圖所示:

其中,RTF是借鑒了語音識別中的指標,即Real Time Factor,度量合成1s的一句話所需要的計算時間,QPS為實際同時能夠支撐的服務請求數(shù)。

KAN-TTS 實際效果

從實際實踐中發(fā)現(xiàn),End2End系統(tǒng)最大的問題是丟字漏字和多音字發(fā)音錯誤兩類問題。由于End2End系統(tǒng)的輸入是中文漢字,而漢字的數(shù)量很多,在訓練數(shù)據(jù)中覆蓋較差,分布也不均勻,因此導致了大量句子都出現(xiàn)了丟字漏字的情況;另外,由于前文中介紹的原因,由于語音數(shù)據(jù)量總是遠遠小于文本數(shù)據(jù)的,基于現(xiàn)在的語音數(shù)據(jù),End2End系統(tǒng)中多音字覆蓋也較差,所以也會大量的出現(xiàn)多音字發(fā)音錯誤問題。

End2End系統(tǒng)和KAN-TTS在丟字漏字和多音字發(fā)音錯誤這兩個問題上的對比,其中多音字發(fā)音錯誤以“為”這個字的情況代表。

從上圖中可以看到,KAN-TTS在這兩個問題上都顯著超越了End2End系統(tǒng)。其原因主要為KAN-TTS中結合了傳統(tǒng)語音合成系統(tǒng),充分利用了多個方面的domain knowledge。因此在合成語音的穩(wěn)定性上,可以獲得和傳統(tǒng)語音合成系統(tǒng)類似的結果。

使用單個發(fā)音人的數(shù)據(jù),與傳統(tǒng)語音合成系統(tǒng)相比,KAN-TTS技術在不同改進下的效果變化。

MOS 為 Mean Opinion Score 的縮寫,是語音合成領域主觀測試打分標準,滿分為5分,越大越好。在MOS測試過程中,會加入不同系統(tǒng)的合成語音以及真實錄音 (Recording),由幾十到幾百的參與人員對每個語音的自然度進行主觀打分。由于不同人的真實錄音的MOS打分往往不同,為了度量技術的實際作用,我們采用了MOS%的形式進行對比,即以Recording得分作為分母,將不同系統(tǒng)的MOS得分除以Recording得分,從而得以度量不同系統(tǒng)主觀得分距離Recording的差距,越接近100%為越好,而Recording的得分始終為100%。

從上圖中可以看到,傳統(tǒng)拼接系統(tǒng)和傳統(tǒng)參數(shù)系統(tǒng) (代表當前市面上商用TTS系統(tǒng)水平) 分別可以獲得85%~90%的接近程度,差別與發(fā)音人風格、數(shù)據(jù)量都比較相關;當采用了KAN-TTS技術時,即便只是基于Single Speaker的數(shù)據(jù),都可以獲得95%以上的接近程度;而采用了multi-speaker以及transfer learning技術之后,特定發(fā)音人數(shù)據(jù)在自然度上可以獲得97%以上的相似度。

結語

KAN-TTS 技術是結合了我們最新的語音技術、海量的文本和聲學數(shù)據(jù)以及大規(guī)模計算能力,對語音合成技術進行的改進。

現(xiàn)在,用戶可以在阿里云官網(wǎng)體驗(https://ai.aliyun.com/nls/tts)。接下來,我們會擴大該技術服務的音色范圍,全面將該技術應用到所有語音合成發(fā)音人中。

通過KAN-TTS技術的提出,我們?yōu)椤笆欠窨梢酝耆饤塪omain knowledge,而完全依賴強大的模型和海量數(shù)據(jù)”這個問題給出了我們自己的答案。在未來的工作中,我們還將基于KAN-TTS技術對語音合成技術做進一步的改進,提供給大家更好的語音合成服務。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116104
  • 智能語音
    +關注

    關注

    11

    文章

    826

    瀏覽量

    50292
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124448

原文標題:達摩院語音實驗室負責人鄢志杰:智能語音爆發(fā)進入倒計時,2019語音AI通過圖靈測試

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    歡迎使用中國香河英茂科工豆包智能

    中國香河英茂科工 - 豆包智能體 創(chuàng)建分身,分兩種:AI智能分身(替你干活) 和數(shù)字人分身(替你出鏡),零基礎也能快速上手。 ? 一、AI智能分身(替你思考/干活) 適合:一人公司、客
    發(fā)表于 02-14 07:22

    【「芯片設計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】--中國EDA的發(fā)展

    階段 國產(chǎn)EDA沉寂期(1994 ~ 2008)。一方面,“熊貓系統(tǒng)”推廣上有所欠缺,難以獲得廣泛應用。中國半導體產(chǎn)業(yè)發(fā)展緩慢,無法為國產(chǎn)EDA提供有力的產(chǎn)業(yè)支撐。另一方面,國際技術和貿(mào)易障礙清除,國際
    發(fā)表于 01-20 23:22

    【「芯片設計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】+ 芯片“卡脖子”引發(fā)對EDA的重視

    芯片設計和EDA領域中美博弈重大事件,分析其背后邏輯和影響。以上事件的本質(zhì)是美國通過壟斷全球科技話語權,,將半導體產(chǎn)業(yè)變成地緣政治工具,構建起一套針對中國半導體產(chǎn)業(yè)的“技術隔離墻”,維持自身在高端
    發(fā)表于 01-20 20:09

    ATH8809 智能語音處理芯片

    智能語音
    深圳市聲訊電子有限公司
    發(fā)布于 :2025年12月24日 16:58:05

    【書籍評測活動NO.69】解碼中國”芯“基石,洞見EDA突圍路《芯片設計基石——EDA產(chǎn)業(yè)全景與未來展望》

    信:elecfans_666)。 芯片設計基石——解碼EDA斷供背后的霸權邏輯及國產(chǎn)EDA突圍之路 本書深度解析全球EDA產(chǎn)業(yè)演進與中國EDA產(chǎn)業(yè)的突圍之路,全景再現(xiàn)中國EDA從“熊
    發(fā)表于 12-09 16:35

    北斗語音技術新突破:中國電信率先實現(xiàn)北斗語音消息服務,北斗芯片技術迎創(chuàng)新

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)近日,中國電信宣布,其已率先公開展示“北斗語音消息”服務,成為業(yè)內(nèi)首家實現(xiàn)北斗語音消息的運營商。這意味著我國在構建“空天地一體化”應急通信體系方面邁出關鍵
    的頭像 發(fā)表于 11-02 11:30 ?6666次閱讀

    智慧工地智能建筑的發(fā)展趨勢將是什么?

    ? ? ?隨著科學技術與物聯(lián)網(wǎng)的發(fā)展,未來智慧工地城市的發(fā)展將是建筑行業(yè)的重中之重,那么未來智慧工地智能建筑的發(fā)展趨勢將是什么?下面西安智維拓遠小編就帶大家了解了解未來的智慧工地
    的頭像 發(fā)表于 10-10 08:53 ?629次閱讀

    主線科技亮相2025中國智能產(chǎn)業(yè)大會

    2025年8月30-31日,由中國人工智能學會主辦,工信部中小企業(yè)發(fā)展促進中心、常州市人民政府支持的第十四屆中國智能產(chǎn)業(yè)大會與吳文俊人工智能
    的頭像 發(fā)表于 09-03 18:08 ?1016次閱讀

    推進一款實用型的OTP語音芯片

    YCV系列語音芯片:讓智能快遞柜取件更便利 隨著互聯(lián)網(wǎng)的普及與電子商務的快速發(fā)展,網(wǎng)購已成為越來越多人日常生活的一部分,催生出一個龐大的“網(wǎng)購群體”??爝f服務因此廣泛覆蓋,將各類商品送達消費者手中
    發(fā)表于 08-26 11:32

    語音識別---大家怎么看?

    語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等
    發(fā)表于 08-09 10:54

    廣州唯創(chuàng)電子語音芯片IC:驅(qū)動餐廳呼叫器智能升級,打造高效服務新體驗

    及WTN6040F系列語音芯片,憑借其卓越的靈活性與強大功能,正成為智能餐廳呼叫器升級的核心引擎,為行業(yè)注入全新活力。一、智能語音:靈活定制,提升
    的頭像 發(fā)表于 07-16 08:45 ?430次閱讀
    廣州唯創(chuàng)電子<b class='flag-5'>語音</b>芯片IC:驅(qū)動餐廳呼叫器<b class='flag-5'>智能</b>升級,打造高效<b class='flag-5'>服務</b>新體驗

    中軟國際入選中國信通院AI Agent智能產(chǎn)業(yè)圖譜1.0

    近日,中國信息通信研究院(以下簡稱“中國信通院”)《AI Agent智能產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國內(nèi)系統(tǒng)性梳理智能
    的頭像 發(fā)表于 07-14 14:55 ?1661次閱讀

    藍牙語音遙控器:智能家居的智慧控制核心

    隨著智能家居的蓬勃發(fā)展,藍牙語音遙控器憑借其便捷的操作和智能交互體驗,正迅速取代傳統(tǒng)紅外遙控器,成為智能電視、機頂盒等設備的首選控制工具。 相較于需對準設備的紅外遙控器,藍牙
    發(fā)表于 06-01 20:24

    智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

    一、行業(yè)應用背景在零售業(yè)態(tài)智能化轉(zhuǎn)型的浪潮中,收銀設備正經(jīng)歷從功能型向服務型轉(zhuǎn)變的關鍵階段。WT3000T8語音合成芯片應運而生,專為滿足新零售場景下智能收銀終端的
    的頭像 發(fā)表于 04-24 08:45 ?1066次閱讀
    <b class='flag-5'>智能</b>收銀<b class='flag-5'>語音</b>交互新標桿—WT3000T8<b class='flag-5'>語音</b>合成芯片TTS技術應用解析

    智能語音交互方案在客服領域的應用

    著客服行業(yè)的面貌,為企業(yè)和用戶帶來了全新的體驗。 語音識別模型優(yōu)化私部署 方案:精準高效,定制專屬服務 語音識別技術作為智能語音交互的基礎,
    的頭像 發(fā)表于 04-11 14:35 ?825次閱讀