一種語音合成系統(tǒng),其包括:分割單元,其被配置成將對應于目標語音的音位串分割為多個節(jié)段,來產生第一節(jié)段序列;
選擇單元,其被配置成基于第一節(jié)段序列通過組合多個語音單元產生對應于第一節(jié)段序列的多個第一語音單元串,并從所述多個第一語音單元串中選擇一個語音單元串;和連接單元,其被配置成連接包含在所選擇語音單元串中的多個語音單元,以產生合成語音,選擇單元包括檢索單元,其被配置成反復實施第一處理和第二處理,該第一處理基于對應于第二節(jié)段序列的最多W個(W為預定值)第二語音單元串產生對應于第三節(jié)段序列的多個第三語音單元串,所述第二節(jié)段序列作為第一節(jié)段序列中的部分序列,所述第三節(jié)段序列作為通過將節(jié)段添加給第二節(jié)段序列而獲得的部分序列,第二處理從所述多個第三語音單元串中選擇最多W個第三語音單元串,第一計算單元,其被配置成計算所述多個第三語音單元串中每個的總成本,第二計算單元,其被配置成基于涉及語音單元數(shù)據(jù)獲取速度的限制來為所述多個第三語音單元串中的每個計算對應于總成本的懲罰系數(shù),其中懲罰系數(shù)依賴于接近所述限制的程度,和第三計算單元,其被配置成通過使用懲罰系數(shù)修正總成本來計算所述多個第三語音單元串中每個的估計值,其中檢索單元基于所述多個第三語音單元串中每個的估計值從所述多個第三語音單元串中選擇最多W個第三語音單元串。

常用語音合成方法的比較
“未來的十年是語音技術的時代”。隨著語音技術研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。語音合成技術是語音技術中十分實用的一項重要技術,它能解決人民大眾的實際需求,能夠深入到社會的各行各業(yè)中去。
語音合成技術經歷了一個逐步發(fā)展的過程,從參數(shù)合成到拼接合成,再到兩者的逐步結合,其不斷發(fā)展的動力是人們認知水平和需求的提高。目前,常用的語音合成方法主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA聲道模型技術。它們各有優(yōu)缺點,人們在應用過程中往往將多種技術有機地結合在一起,或將一種技術的優(yōu)點運用到另一種技術上,以克服另一種技術的不足。
共振峰合成
語音合成的理論基礎是語音生成的數(shù)學模型。該模型語音生成過程是在激勵信號的激勵下,聲波經諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點。習慣上,把聲道傳輸頻率響應上的極點稱之為共振峰,而語音的共振峰頻率(極點頻率)的分布特性決定著該語音的音色。
音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數(shù),可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發(fā)出的信號進行調制,再經過輻射模型就可以得到合成語音。這就是共振峰合成技術的基本原理?;诠舱穹宓睦碚撚幸韵氯N實用模型。
1)級聯(lián)型共振峰模型
在該模型中,聲道被認為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。
2)并聯(lián)型共振峰模型
許多研究者認為,對于鼻化元音等非一般元音以及大部分輔音,上述級聯(lián)型模型不能很好地加以描述和模擬,因此,構筑和產生了并聯(lián)型共振峰模型。
3)混合型共振峰模型
在級聯(lián)型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯(lián)型模型中,輸入信號先分別通過幅度調節(jié)再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。將兩者比較,對于合成聲源位于聲道末端的語音(大多數(shù)的元音),級聯(lián)型合乎語音產生的聲學理論,并且無需為每一個濾波器分設幅度調節(jié);而對于合成聲源位于聲道中間的語音(大多數(shù)清擦音和塞音),并聯(lián)型則比較合適,但是其幅度調節(jié)很復雜?;诖朔N考慮,人們將兩者結合在一起,提出了混和型共振峰模型。
共振峰模型是基于對聲道的一種比較準確的模擬,因而可以合成出自然度比較高的語音,另外由于共振峰參數(shù)有著明確的物理意義,直接對應于聲道參數(shù),因此,可以容易利用共振峰描述自然語流中的各種現(xiàn)象,并且總結聲學規(guī)則,最終用于共振峰合成系統(tǒng)。
但是,人們同時也發(fā)現(xiàn)該技術有明顯的弱點。首先由于它是建立在對聲道的模擬上,因此,對于聲道模型的不精確勢必會影響其合成質量。另外,實際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但并不能表征影響語音自然度的其他許多細微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分復雜,對于一個好的合成器來說,其控制參數(shù)往往達到幾十個,實現(xiàn)起來十分困難。
基于這些原因,研究者繼續(xù)尋求和發(fā)現(xiàn)其他新的合成技術。人們從波形的直接錄制和播放得到啟發(fā),提出了基于波形拼接的合成技術,LPC合成技術和PSOLA合成技術是其中的代表。與共振峰合成技術不同,波形拼接合成是基于對錄制的合成基元的波形進行拼接,而不是基于對發(fā)聲過程的模擬。
LPC參數(shù)合成
波形拼接技術的發(fā)展與語音的編、解碼技術的發(fā)展密不可分,其中LPC技術(線性預測編碼技術)的發(fā)展對波形拼接技術產生了巨大的影響。LPC合成技術本質上是一種時間波形的編碼技術,目的是為了降低時間域信號的傳輸速率。
LPC合成技術的優(yōu)點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外,由于波形拼接技術的合成基元是語音的波形數(shù)據(jù),保存了語音的全部信息,因而對于單個合成基元來說能夠獲得很高的自然度。
但是,由于自然語流中的語音和孤立狀況下的語音有著極大的區(qū)別,如果只是簡單地把各個孤立的語音生硬地拼接在一起,其整個語流的質量勢必是不太理想的。而LPC技術從本質上來說只是一種錄音+重放,對于合成整個連續(xù)語流LPC合成技術的效果是不理想的。因此,LPC合成技術必須和其他技術相結合,才能明顯改善LPC合成的質量。
電子發(fā)燒友App







評論