91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

網(wǎng)絡(luò)語(yǔ)音通話(huà)運(yùn)用了哪些技術(shù)?

Dbwd_Imgtec ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-08-12 11:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)我們使用像Skype、QQ這樣的工具和朋友流暢地進(jìn)行語(yǔ)音視頻聊天時(shí),我們可曾想過(guò)其背后有哪些強(qiáng)大的技術(shù)在支撐?本文將對(duì)網(wǎng)絡(luò)語(yǔ)音通話(huà)所使用到的技術(shù)做一些簡(jiǎn)單的介紹,算是管中窺豹吧。

一、概念模型

網(wǎng)絡(luò)語(yǔ)音通話(huà)通常是雙向的,就模型層面來(lái)說(shuō),這個(gè)雙向是對(duì)稱(chēng)的。為了簡(jiǎn)單起見(jiàn),我們討論一個(gè)方向的通道就可以了。一方說(shuō)話(huà),另一方則聽(tīng)到聲音。看似簡(jiǎn)單而迅捷,但是其背后的流程卻是相當(dāng)復(fù)雜的。我們將其經(jīng)過(guò)的各個(gè)主要環(huán)節(jié)簡(jiǎn)化成下圖所示的概念模型:

這是一個(gè)最基礎(chǔ)的模型,由五個(gè)重要的環(huán)節(jié)構(gòu)成:采集、編碼、傳送、解碼、播放。

1. 語(yǔ)音采集

語(yǔ)音采集指的是從麥克風(fēng)采集音頻數(shù)據(jù),即聲音樣本轉(zhuǎn)換成數(shù)字信號(hào)。其涉及到幾個(gè)重要的參數(shù):采樣頻率、采樣位數(shù)、聲道數(shù)。

簡(jiǎn)單的來(lái)說(shuō):采樣頻率,就是在1秒內(nèi)進(jìn)行采集動(dòng)作的次數(shù);采樣位數(shù),就是每次采集動(dòng)作得到的數(shù)據(jù)長(zhǎng)度。

而一個(gè)音頻幀的大小就等于:(采樣頻率×采樣位數(shù)×聲道數(shù)×?xí)r間)/8。

通常一個(gè)采樣幀的時(shí)長(zhǎng)為10ms,即每10ms的數(shù)據(jù)構(gòu)成一個(gè)音頻幀。假設(shè):采樣率16k、采樣位數(shù)16bit、聲道數(shù)1,那么一個(gè)10ms的音頻幀的大小為:(16000*16*1*0.01)/8 = 320 字節(jié)。計(jì)算式中的0.01為秒,即10ms。

附:可以參考了解語(yǔ)音視頻采集組件MCapture相關(guān)介紹及Demo源碼與SDK下載。

2. 編碼

假設(shè)我們將采集到的音頻幀不經(jīng)過(guò)編碼,而直接發(fā)送,那么我們可以計(jì)算其所需要的帶寬要求,仍以上例:320*100 =32KBytes/s,如果換算為bits/s,則為256kb/s。這是個(gè)很大的帶寬占用。而通過(guò)網(wǎng)絡(luò)流量監(jiān)控工具,我們可以發(fā)現(xiàn)采用類(lèi)似QQ等IM軟件進(jìn)行語(yǔ)音通話(huà)時(shí),流量為3-5KB/s,這比原始流量小了一個(gè)數(shù)量級(jí)。而這主要得益于音頻編碼技術(shù)。

所以,在實(shí)際的語(yǔ)音通話(huà)應(yīng)用中,編碼這個(gè)環(huán)節(jié)是不可缺少的。目前有很多常用的語(yǔ)音編碼技術(shù),像G.729、iLBC、AAC、SPEEX等等。

3. 網(wǎng)絡(luò)傳送

當(dāng)一個(gè)音頻幀完成編碼后,即可通過(guò)網(wǎng)絡(luò)發(fā)送給通話(huà)的對(duì)方。對(duì)于語(yǔ)音對(duì)話(huà)這樣Realtime應(yīng)用,低延遲和平穩(wěn)是非常重要的,這就要求我們的網(wǎng)絡(luò)傳送非常順暢。

4. 解碼

當(dāng)對(duì)方接收到編碼幀后,會(huì)對(duì)其進(jìn)行解碼,以恢復(fù)成為可供聲卡直接播放的數(shù)據(jù)。

5. 語(yǔ)音播放

完成解碼后,即可將得到的音頻幀提交給聲卡進(jìn)行播放。

附:可以參考了解語(yǔ)音播放組件MPlayer相關(guān)介紹與Demo源碼與SDK下載

二、實(shí)際應(yīng)用中的難點(diǎn)及解決方案

如果僅僅依靠上述的技術(shù)就能實(shí)現(xiàn)一個(gè)效果良好的應(yīng)用于廣域網(wǎng)上的語(yǔ)音對(duì)話(huà)系統(tǒng),那就沒(méi)什么太大的必要來(lái)撰寫(xiě)此文了。正是有很多現(xiàn)實(shí)的因素為上述的概念模型引入了眾多挑戰(zhàn),使得網(wǎng)絡(luò)語(yǔ)音系統(tǒng)的實(shí)現(xiàn)不是那么簡(jiǎn)單,其涉及到很多專(zhuān)業(yè)技術(shù)。當(dāng)然,這些挑戰(zhàn)大多已經(jīng)有了成熟的解決方案。首先,我們要為“效果良好”的語(yǔ)音對(duì)話(huà)系統(tǒng)下個(gè)定義,我覺(jué)得應(yīng)該達(dá)到如下幾點(diǎn):

低延遲。只有低延遲,才能讓通話(huà)的雙方有很強(qiáng)的Realtime的感覺(jué)。當(dāng)然,這個(gè)主要取決于網(wǎng)絡(luò)的速度和通話(huà)雙方的物理位置的距離,就單純軟件的角度,優(yōu)化的可能性很小。

背景噪音小。

聲音流暢、沒(méi)有卡、停頓的感覺(jué)。

沒(méi)有回音。

下面我們就逐個(gè)說(shuō)說(shuō)實(shí)際網(wǎng)絡(luò)語(yǔ)音對(duì)話(huà)系統(tǒng)中額外用到的技術(shù)。

1. 回音消除 AEC

現(xiàn)在大家?guī)缀醵家呀?jīng)都習(xí)慣了在語(yǔ)音聊天時(shí),直接用PC或筆記本的聲音外放功能。殊不知,這個(gè)小小的習(xí)慣曾為語(yǔ)音技術(shù)提出了多大的挑戰(zhàn)。當(dāng)使用外放功能時(shí),揚(yáng)聲器播放的聲音會(huì)被麥克風(fēng)再次采集,傳回給對(duì)方,這樣對(duì)方就聽(tīng)到了自己的回音。所以,實(shí)際應(yīng)用中,回音消除的功能是必需的。

在得到采集的音頻幀后,在編碼之前的這個(gè)間隙,是回音消除模塊工作的時(shí)機(jī)。

其原理簡(jiǎn)單地來(lái)說(shuō)就是,回音消除模塊依據(jù)剛播放的音頻幀,在采集的音頻幀中做一些類(lèi)似抵消的運(yùn)算,從而將回聲從采集幀中清除掉。這個(gè)過(guò)程是相當(dāng)復(fù)雜的,而且其還與你聊天時(shí)所處的房間的大小、以及你在房間中的位置有關(guān),因?yàn)檫@些信息決定了聲波反射的時(shí)長(zhǎng)。 智能的回音消除模塊,能動(dòng)態(tài)調(diào)整內(nèi)部參數(shù),以最佳適應(yīng)當(dāng)前的環(huán)境。

2. 噪聲抑制 DENOISE

噪聲抑制又稱(chēng)為降噪處理,是根據(jù)語(yǔ)音數(shù)據(jù)的特點(diǎn),將屬于背景噪音的部分識(shí)別出來(lái),并從音頻幀中過(guò)濾掉。有很多編碼器都內(nèi)置了該功能。

3. 抖動(dòng)緩沖區(qū) JitterBuffer

抖動(dòng)緩沖區(qū)用于解決網(wǎng)絡(luò)抖動(dòng)的問(wèn)題。所謂網(wǎng)絡(luò)抖動(dòng),就是網(wǎng)絡(luò)延遲一會(huì)大一會(huì)小,在這種情況下,即使發(fā)送方是定時(shí)發(fā)送數(shù)據(jù)包的(比如每100ms發(fā)送一個(gè)包),而接收方的接收就無(wú)法同樣定時(shí)了,有時(shí)一個(gè)周期內(nèi)一個(gè)包都接收不到,有時(shí)一個(gè)周期內(nèi)接收到好幾個(gè)包。如此,導(dǎo)致接收方聽(tīng)到的聲音就是一卡一卡的。

JitterBuffer工作于解碼器之后,語(yǔ)音播放之前的環(huán)節(jié)。即語(yǔ)音解碼完成后,將解碼幀放入JitterBuffer,聲卡的播放回調(diào)到來(lái)時(shí),從JitterBuffer中取出最老的一幀進(jìn)行播放。

JitterBuffer的緩沖深度取決于網(wǎng)絡(luò)抖動(dòng)的程度,網(wǎng)絡(luò)抖動(dòng)越大,緩沖深度越大,播放音頻的延遲就越大。所以,JitterBuffer是利用了較高的延遲來(lái)?yè)Q取聲音的流暢播放的,因?yàn)橄啾嚷曇粢豢ㄒ豢▉?lái)說(shuō),稍大一點(diǎn)的延遲但更流暢的效果,其主觀體驗(yàn)要更好。

當(dāng)然,JitterBuffer的緩沖深度不是一直不變的,而是根據(jù)網(wǎng)絡(luò)抖動(dòng)程度的變化而動(dòng)態(tài)調(diào)整的。當(dāng)網(wǎng)絡(luò)恢復(fù)到非常平穩(wěn)通暢時(shí),緩沖深度會(huì)非常小,這樣因?yàn)镴itterBuffer而增加的播放延遲就可以忽略不計(jì)了。

4. 靜音檢測(cè) VAD

在語(yǔ)音對(duì)話(huà)中,要是當(dāng)一方?jīng)]有說(shuō)話(huà)時(shí),就不會(huì)產(chǎn)生流量就好了。靜音檢測(cè)就是用于這個(gè)目的的。靜音檢測(cè)通常也集成在編碼模塊中。靜音檢測(cè)算法結(jié)合前面的噪聲抑制算法,可以識(shí)別出當(dāng)前是否有語(yǔ)音輸入,如果沒(méi)有語(yǔ)音輸入,就可以編碼輸出一個(gè)特殊的的編碼幀(比如長(zhǎng)度為0)。

特別是在多人視頻會(huì)議中,通常只有一個(gè)人在發(fā)言,這種情況下,利用靜音檢測(cè)技術(shù)而節(jié)省帶寬還是非常可觀的。

5. 混音算法

在多人語(yǔ)音聊天時(shí),我們需要同時(shí)播放來(lái)自于多個(gè)人的語(yǔ)音數(shù)據(jù),而聲卡播放的緩沖區(qū)只有一個(gè),所以,需要將多路語(yǔ)音混合成一路,這就是混音算法要做的事情。即使,你可以想辦法繞開(kāi)混音而讓多路聲音同時(shí)播放,那么對(duì)于回音消除的目的而言,也必需混音成一路播放,否則,回音消除最多就只能消除多路聲音中的某一路。

混音可以在客戶(hù)端進(jìn)行,也可以在服務(wù)端進(jìn)行(可節(jié)省下行的帶寬)。如果使用了P2P通道,那么混音就只能在客戶(hù)端進(jìn)行了。如果是在客戶(hù)端混音,通常,混音是播放之前的最后一個(gè)環(huán)節(jié)。

綜合上面的概念模型以及現(xiàn)實(shí)中用到的網(wǎng)絡(luò)語(yǔ)音技術(shù),下面我們給出一個(gè)完整的模型圖:

本文是我們?cè)趯?shí)現(xiàn)OMCS語(yǔ)音部分功能的一個(gè)粗略的經(jīng)驗(yàn)總結(jié)。在這里,我們只是對(duì)圖中各個(gè)環(huán)節(jié)做了一個(gè)最簡(jiǎn)單的說(shuō)明,而任何一塊深入下去,都可以寫(xiě)成一篇長(zhǎng)篇論文甚至是一本書(shū)。所以,本文就算是為那些剛剛接觸網(wǎng)絡(luò)語(yǔ)音系統(tǒng)開(kāi)發(fā)的人提供一個(gè)入門(mén)的地圖,給出一些線(xiàn)索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Skype
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    14388
  • 噪聲抑制
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    12510
  • 語(yǔ)音通話(huà)
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    9806

原文標(biāo)題:淺談網(wǎng)絡(luò)語(yǔ)音技術(shù)

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    干貨!全面解析幾種LTE語(yǔ)音通話(huà)技術(shù)

    over LTE”,翻譯過(guò)來(lái)可以理解為一種“通過(guò)LTE網(wǎng)絡(luò)傳輸?shù)?b class='flag-5'>語(yǔ)音技術(shù)”。那么,什么是VoLTE語(yǔ)音技術(shù)、基于4G LTE
    發(fā)表于 04-10 10:09 ?2.5w次閱讀

    stm32語(yǔ)音通話(huà)

    目前再做一個(gè)stm32語(yǔ)音通話(huà),通過(guò)麥克風(fēng)采集adc信號(hào),在通過(guò)4G模塊傳輸?shù)皆?,然后另一個(gè)4G模塊接受云的數(shù)據(jù)使用DAC輸出,目前就是說(shuō)話(huà)會(huì)斷斷續(xù)續(xù)的,可能是網(wǎng)絡(luò)傳輸問(wèn)題,請(qǐng)問(wèn)各位老哥有沒(méi)有什么解決的辦法?只需要做到半雙工即可
    發(fā)表于 03-10 10:52

    基于ZigBee網(wǎng)絡(luò)語(yǔ)音應(yīng)急通信可行性研究

     基于ZigBee網(wǎng)絡(luò)語(yǔ)音應(yīng)急通信可行性研究簡(jiǎn)要介紹ZigBee無(wú)線(xiàn)網(wǎng)絡(luò)技術(shù)以及電信行業(yè)通話(huà)質(zhì)量的評(píng)估標(biāo)準(zhǔn)。通過(guò)仿真模擬,對(duì)ZigBee無(wú)線(xiàn)信道上的VoIP和PTT兩種
    發(fā)表于 09-19 09:25

    可實(shí)現(xiàn)通話(huà)語(yǔ)音芯片有哪些,求推薦

    想做個(gè)東西實(shí)現(xiàn)與手機(jī)通話(huà),求問(wèn)有什么合適的語(yǔ)音芯片
    發(fā)表于 09-14 10:29

    多方通話(huà)中的語(yǔ)音優(yōu)先技術(shù)

      語(yǔ)音通信實(shí)時(shí)性要求較高。為了保證提供高音質(zhì)的IP 電話(huà)通信,在帶寬不足、信息擁擠不堪的iP 網(wǎng)絡(luò)上,一般需要采用語(yǔ)音優(yōu)先技術(shù)?! ‘?dāng)廣域網(wǎng)(WAN ) 帶寬低于512kbit/s
    發(fā)表于 12-30 17:20

    Mate30 SA終端語(yǔ)音通話(huà)不能正?;芈渲?G網(wǎng)絡(luò)

    Mate30 SA終端語(yǔ)音通話(huà)不能正?;芈渲?G網(wǎng)絡(luò)?
    發(fā)表于 03-02 07:31

    啟英泰倫通話(huà)降噪方案,采用深度學(xué)習(xí)降噪算法,讓通話(huà)更清晰

    生活中的通話(huà)應(yīng)用場(chǎng)景無(wú)處不在,如電話(huà)、對(duì)講機(jī)、遠(yuǎn)程會(huì)議、在線(xiàn)教育等。普遍存在的問(wèn)題是環(huán)境噪音、干擾聲導(dǎo)致通話(huà)聲音不清晰,語(yǔ)音失真等。 為了解決這一問(wèn)題,啟英泰倫基于自適應(yīng)線(xiàn)性濾波聯(lián)合非線(xiàn)性濾波的回聲
    發(fā)表于 08-22 17:36

    SRVCC語(yǔ)音技術(shù)

    SRVCC(單一無(wú)線(xiàn)語(yǔ)音呼叫連續(xù)性)實(shí)現(xiàn)從LTE網(wǎng)絡(luò)到WCDMA網(wǎng)絡(luò)的首次語(yǔ)音呼叫切換。作為支持LTE網(wǎng)絡(luò)
    發(fā)表于 02-08 15:18 ?2296次閱讀

    基于VoWLAN終端實(shí)現(xiàn)無(wú)線(xiàn)VoIP語(yǔ)音通話(huà)解決方案

    本文介紹通過(guò)VoWLAN終端利用現(xiàn)有WLAN網(wǎng)絡(luò),實(shí)現(xiàn)無(wú)線(xiàn)VoIP無(wú)線(xiàn)語(yǔ)音通話(huà)的幾種解決方案,并介紹方案具體的構(gòu)成組件。
    發(fā)表于 12-14 14:10 ?3901次閱讀

    中移動(dòng)稱(chēng)4G通話(huà)比2G清晰 語(yǔ)音通話(huà)質(zhì)量提升2倍

    6月27日消息,中移動(dòng)首次發(fā)布了關(guān)于4G語(yǔ)音技術(shù)白皮書(shū),能將采用VoLTE技術(shù)語(yǔ)音呼叫切換至2G/3G網(wǎng)絡(luò)上,
    發(fā)表于 06-27 11:09 ?1.5w次閱讀

    Volte是基于IMS域的純IP的語(yǔ)音通話(huà)技術(shù)

    現(xiàn)在三大運(yùn)營(yíng)商都開(kāi)始了Volte的商用(聯(lián)通是試商用),Volte可以帶來(lái)語(yǔ)音的提升,但是現(xiàn)在在大多數(shù)的地區(qū),不僅僅需要兩臺(tái)手機(jī)都支持Volte,而且需要是同一運(yùn)營(yíng)商之間的通話(huà)才屬于高清通話(huà),才可以帶來(lái)
    發(fā)表于 10-14 10:14 ?3498次閱讀

    VoLTE語(yǔ)音通話(huà)究竟是一個(gè)什么樣的技術(shù)

    隨著通信技術(shù)飛速發(fā)展,以往2G、3G時(shí)代的數(shù)據(jù)語(yǔ)音傳輸已經(jīng)無(wú)法滿(mǎn)足用戶(hù)需求了,大家都在期待更高質(zhì)量的高通通話(huà)或者視頻通話(huà),對(duì)此2G、3G網(wǎng)絡(luò)
    發(fā)表于 10-31 10:56 ?3703次閱讀
    VoLTE<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>通話(huà)</b>究竟是一個(gè)什么樣的<b class='flag-5'>技術(shù)</b>

    高通和中興通訊利用5G網(wǎng)絡(luò)實(shí)現(xiàn)了語(yǔ)音通話(huà)

    語(yǔ)音服務(wù)是移動(dòng)運(yùn)營(yíng)商提供的基礎(chǔ)性服務(wù),利用5G網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)音通話(huà)被稱(chēng)為新空口承載語(yǔ)音(VoNR)。實(shí)現(xiàn)VoNR
    發(fā)表于 01-07 09:44 ?962次閱讀

    衛(wèi)星通話(huà)網(wǎng)絡(luò)通話(huà)如何相互轉(zhuǎn)換?

    衛(wèi)星通話(huà)網(wǎng)絡(luò)通話(huà)如何相互轉(zhuǎn)換? 在當(dāng)今信息化社會(huì),通信和信息的傳播變得越來(lái)越發(fā)達(dá)。無(wú)線(xiàn)通信,尤其是衛(wèi)星通信的出現(xiàn),極大地改變了人們之間的通信方式。人們?cè)诘厍蛏峡梢允褂?b class='flag-5'>網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-30 17:27 ?2955次閱讀

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話(huà)產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析

    隨著人工智能技術(shù)的快速發(fā)展,AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話(huà)產(chǎn)品中的應(yīng)用正逐步取代傳統(tǒng)降噪技術(shù),成為提升語(yǔ)
    的頭像 發(fā)表于 05-16 17:07 ?1514次閱讀
    AI神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>降噪算法在<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>通話(huà)</b>產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析