91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI在音頻處理方面的潛力

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-27 08:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】Kanda機(jī)器學(xué)習(xí)工程師Daniel Rothmann回顧了現(xiàn)有的機(jī)器學(xué)習(xí)音頻處理方法,提出了未來(lái)可能的發(fā)展方向。

這兩年來(lái)AI,特別是深度學(xué)習(xí)發(fā)展迅猛,我們?cè)趫D像和視頻處理方面看到了大量AI技術(shù)的應(yīng)用。盡管AI進(jìn)入音頻世界的步伐要晚一點(diǎn),我們同樣看到了令人印象深刻的技術(shù)進(jìn)展。

在這篇文章中,我將總結(jié)一些進(jìn)展,勾勒下AI在音頻處理方面的潛力,同時(shí)描述下這條路線(xiàn)上可能碰到的問(wèn)題和挑戰(zhàn)。

趨向更智能的音頻

我對(duì)音頻處理方面的AI應(yīng)用的興趣源于2016年底DeepMind的WaveNet的發(fā)表——WaveNet是一個(gè)生成音頻錄音的深度學(xué)習(xí)模型1。這一基于自適應(yīng)網(wǎng)絡(luò)架構(gòu)的擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)能夠成功生成很有說(shuō)服力的文本到語(yǔ)音轉(zhuǎn)換,并能基于經(jīng)典鋼琴錄音訓(xùn)練出有趣的類(lèi)似音樂(lè)的錄音。

我們?cè)谏虡I(yè)世界中看到了更多機(jī)器學(xué)習(xí)應(yīng)用——例如LANDR,一個(gè)自動(dòng)母帶后期處理服務(wù),該服務(wù)依靠AI設(shè)定數(shù)字音頻處理和增益細(xì)化的參數(shù)。

專(zhuān)業(yè)音頻軟件巨頭iZotope在2017年發(fā)布了Neutron 2,這個(gè)混音工具的特色是利用AI檢測(cè)樂(lè)器并向用戶(hù)建議裝置預(yù)設(shè)的“音軌助手”。iZotope的音頻修復(fù)套件RX 6中還有一個(gè)分離談話(huà)的工具,同樣基于AI技術(shù)。

AI在數(shù)字信號(hào)處理方面的潛力

AI在音頻處理上的應(yīng)用仍處于早期。深度學(xué)習(xí)方法讓我們可以從一個(gè)全新的角度應(yīng)對(duì)信號(hào)處理問(wèn)題,但整個(gè)音頻行業(yè)對(duì)此的認(rèn)知遠(yuǎn)遠(yuǎn)不夠。目前而言,音頻行業(yè)專(zhuān)注于公式化的處理方法:深入理解問(wèn)題后,手工設(shè)計(jì)求解函數(shù)。然而,理解聲音是一項(xiàng)非常復(fù)雜的任務(wù),我們?nèi)祟?lèi)直覺(jué)上認(rèn)為相當(dāng)容易的問(wèn)題實(shí)際上很難公式化地描述。

以音源分離為例:在一個(gè)兩個(gè)人同時(shí)說(shuō)話(huà)的場(chǎng)景下,你的大腦不需要費(fèi)多少功夫就可以想象任何一個(gè)人在單獨(dú)說(shuō)話(huà)。但是我們?nèi)绾蚊枋龇蛛x這兩個(gè)語(yǔ)言的公式呢?好,它取決于:

有描述人類(lèi)嗓音的統(tǒng)一方式嗎?如果答案是肯定的,性別、年齡、精力、個(gè)性等參數(shù)是如何影響這一描述的呢?聽(tīng)話(huà)人的物理距離和房間的音響效果如何影響這一理解?錄音中可能出現(xiàn)的非人類(lèi)發(fā)出的噪聲如何處理?通過(guò)什么參數(shù)可以將一個(gè)人的嗓音和另一個(gè)人區(qū)分開(kāi)來(lái)?

如你所見(jiàn),設(shè)計(jì)一個(gè)全面兼顧這一問(wèn)題的公式需要關(guān)注大量參數(shù)。AI在這里提供了一種更實(shí)用的方法——通過(guò)設(shè)定學(xué)習(xí)的恰當(dāng)條件,我們通過(guò)統(tǒng)計(jì)學(xué)方法自動(dòng)估計(jì)這一復(fù)雜函數(shù)。事實(shí)上,助聽(tīng)器生產(chǎn)商O(píng)ticon研發(fā)中心Eriksholm的研究人員提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)在實(shí)時(shí)應(yīng)用中更好地分離音源的方法2。

由于基于深度神經(jīng)網(wǎng)絡(luò)處理音頻的方法仍在不斷改進(jìn)之中,我們只能開(kāi)始設(shè)想下可能解決的一些困難問(wèn)題——下面是我在深度學(xué)習(xí)用于實(shí)時(shí)音頻處理方面的一些設(shè)想:

選擇性噪聲消除,例如移除汽車(chē)的聲音。

Hi-fi音頻重建,例如基于小型、低質(zhì)的麥克風(fēng)采集的音頻。

模擬音頻仿真,模仿非線(xiàn)性模擬音頻組件的復(fù)雜交互。

語(yǔ)音處理,例如更改錄音的說(shuō)話(huà)人、方言、語(yǔ)言。

改善空間模擬,用于回響、雙耳統(tǒng)合處理。

表示和架構(gòu)上的挑戰(zhàn)

WaveNet是最早在原始樣本層次成功生成音頻的嘗試之一。這里有一大問(wèn)題,CD音質(zhì)的音頻通常以每秒44100的采樣率存儲(chǔ),因此WaveNet需要幾小時(shí)才能生成幾秒的音頻。這在實(shí)時(shí)應(yīng)用中就不行了。

另一方面,許多基于神經(jīng)網(wǎng)絡(luò)處理音頻的現(xiàn)有方案利用光譜表示和卷積網(wǎng)絡(luò)。這些方案基本上將音頻頻譜可視化為2D圖像,然后使用卷積網(wǎng)絡(luò)掃描、處理圖像3。通常,這些方法的結(jié)果并不像視覺(jué)領(lǐng)域的結(jié)果那么有吸引力,比如CycleGAN可以對(duì)電影進(jìn)行令人印象深刻的風(fēng)格遷移4。

電影和音頻剪輯有一些相同之處,它們都描繪了時(shí)間之上的運(yùn)動(dòng)??紤]到CycleGAN這樣在圖像處理網(wǎng)絡(luò)方面的創(chuàng)新,有人可能會(huì)假定音頻上同樣可以進(jìn)行這樣的風(fēng)格遷移。

但電影和音頻剪輯不是一回事——如果我們凍結(jié)電影的一幀,從這一幀中仍能得到相當(dāng)多的關(guān)于行動(dòng)的信息。但如果我們凍結(jié)音頻的“一幀”,其中只有極少的信息。這意味著,相比電影,音頻在基礎(chǔ)上更依賴(lài)時(shí)間。在光譜中,我們也從來(lái)不會(huì)假定一個(gè)像素屬于單個(gè)對(duì)象:音頻永遠(yuǎn)“細(xì)如絲線(xiàn)”,光譜在同一幀中顯示所有混雜在一起的聲響3。

卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)借鑒了人類(lèi)的視覺(jué)系統(tǒng),最初基于視皮層的信息傳播過(guò)程5。我相信,這里有一個(gè)值得考慮的問(wèn)題。我們基本是將音頻轉(zhuǎn)換成圖像,然后在圖像上進(jìn)行視覺(jué)處理,再轉(zhuǎn)換回音頻。所以,我們是用機(jī)器視覺(jué)來(lái)處理機(jī)器聽(tīng)覺(jué)。但是,從直覺(jué)上說(shuō),這兩種感官的工作方式是不一樣的??纯聪旅娴墓庾V,憑借你聰慧的人類(lèi)大腦,你能從中得到多少關(guān)于音頻實(shí)際內(nèi)容的有意義的信息?如果你可以聽(tīng)到它,你將很快直觀(guān)地體會(huì)到正在發(fā)生什么。也許這正是阻礙面向音頻的AI輔助技術(shù)發(fā)展的問(wèn)題所在。

5秒的光譜(這是藍(lán)調(diào)口琴)

因此我提議,神經(jīng)網(wǎng)絡(luò)要想在音頻處理上取得更好的結(jié)果,我們應(yīng)該集中精力找到專(zhuān)門(mén)針對(duì)音頻的更好表示和神經(jīng)網(wǎng)絡(luò)架構(gòu)。比如自相關(guān)圖這樣包括時(shí)間、頻率、周期性的三維表示6。人類(lèi)可以基于直覺(jué)比較聲音的周期性,找出模式的相似性,以區(qū)分音源。音高和節(jié)奏也是時(shí)間因素的結(jié)果。因此像自相關(guān)圖這樣更關(guān)注時(shí)間的表示,可能有用。

表示聲音的自相關(guān)圖(圖片來(lái)源:shef.ac.uk)

此外,我們可以開(kāi)始設(shè)想在架構(gòu)上建模聽(tīng)覺(jué)系統(tǒng)的神經(jīng)通路。當(dāng)聲音刺激耳膜并傳至耳蝸時(shí),根據(jù)頻率的不同,它會(huì)轉(zhuǎn)為不同幅度。接著聲音傳至中央聽(tīng)覺(jué)系統(tǒng)進(jìn)行時(shí)間模式處理。中央聽(tīng)覺(jué)系統(tǒng)中負(fù)責(zé)從音頻中收集意義的分析模式中,哪一種可以通過(guò)人工神經(jīng)網(wǎng)絡(luò)建模?也許是周期性6,也許是聲音事件的統(tǒng)計(jì)學(xué)分組7,也許是分析的擴(kuò)張時(shí)間幀1。

聽(tīng)覺(jué)系統(tǒng)示意圖(圖片來(lái)源:Universit?t Zu Lübeck)

結(jié)語(yǔ)

AI領(lǐng)域的發(fā)展為智能音頻處理提供了很大潛力。但要讓神經(jīng)網(wǎng)絡(luò)更好地理解聲音,我們也許需要離內(nèi)在地視覺(jué)上的方法遠(yuǎn)一點(diǎn),轉(zhuǎn)而考慮基于聽(tīng)覺(jué)系統(tǒng)的新技術(shù)。

這篇文章中,相比提供的答案,我提出了更多的問(wèn)題,希望能引起你對(duì)此的思考。

這是機(jī)器聽(tīng)覺(jué)系列文章的第一篇,后續(xù)文章將于近期翻譯,敬請(qǐng)期待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301454
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136962

原文標(biāo)題:機(jī)器聽(tīng)覺(jué):一、AI在音頻處理上的潛力

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    risc-v多核芯片在AI方面的應(yīng)用

    多核芯片在AI方面的應(yīng)用具有廣闊的前景和巨大的潛力。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入,我們期待看到更多基于RISC-V多核芯片的AI解決方案
    發(fā)表于 04-28 09:20

    5509a主要是想學(xué)習(xí)音頻方面的應(yīng)用,不知道看些什么書(shū)

    在學(xué)習(xí)5509a,不知道怎么學(xué)習(xí),有前輩指點(diǎn)下么,主要是想學(xué)習(xí)音頻方面的應(yīng)用,不知道看些什么書(shū),找些什么資料
    發(fā)表于 03-13 17:09

    請(qǐng)問(wèn)用DSP做音頻處理方面的項(xiàng)目,用什么樣的開(kāi)發(fā)板比較好

    請(qǐng)問(wèn)用DSP做音頻處理方面的項(xiàng)目,用什么樣的開(kāi)發(fā)板比較好,有專(zhuān)用處理音頻的嗎急用,請(qǐng)大神解答
    發(fā)表于 06-05 21:11

    圖形處理多媒體技術(shù)應(yīng)用方面的經(jīng)驗(yàn)和成果

    圖形處理多媒體技術(shù)應(yīng)用方面的經(jīng)驗(yàn)和成果
    發(fā)表于 02-01 06:07

    音頻處理SoC500 μW以下運(yùn)行AI

    DSP Group作為其最新超低功耗音頻處理SoC SmartVoice DBM10的一部分,首次推出了用于AI加速的新硬件IP,即nNetLite神經(jīng)處理單元(NPU)。
    發(fā)表于 03-03 10:49

    NEC MCU馬達(dá)方面的應(yīng)用

    NEC MCU馬達(dá)方面的應(yīng)用 Agenda1、NEC MCU馬達(dá)應(yīng)用方面的特點(diǎn) 1.1 NEC 8位MCU馬達(dá)應(yīng)用
    發(fā)表于 03-17 16:48 ?53次下載

    基于ST公司的STM32微控制器系列音頻方面的應(yīng)用源代碼

    基于ST公司的STM32微控制器系列音頻方面的應(yīng)用源代碼。
    發(fā)表于 05-20 16:29 ?7次下載

    探析下一代半導(dǎo)體材料改造照明技術(shù)方面的潛力

    美國(guó)喬治亞理工大學(xué)(Georgia Institute of Technology)的一個(gè)國(guó)際研究團(tuán)隊(duì)證明了下一代半導(dǎo)體材料改造照明技術(shù)方面的潛力。
    的頭像 發(fā)表于 02-13 14:17 ?3556次閱讀

    Python語(yǔ)言AI、大數(shù)據(jù)方面的重要性

    Python語(yǔ)言AI、大數(shù)據(jù)方面的重要性
    發(fā)表于 09-02 16:20 ?25次下載

    全球金融機(jī)構(gòu)使用AI方面的主要趨勢(shì)

    2022 年調(diào)查確定了全球金融機(jī)構(gòu)使用 AI 方面的主要趨勢(shì)。
    的頭像 發(fā)表于 04-25 11:39 ?2636次閱讀

    半導(dǎo)體廠(chǎng)商音頻電子方面的三個(gè)新發(fā)展

    本文中,我們將重點(diǎn)介紹主要半導(dǎo)體廠(chǎng)商音頻電子方面的三個(gè)新發(fā)展。高通公司宣布了兩個(gè)用于無(wú)線(xiàn)收聽(tīng)和錄音的音頻平臺(tái),而意法半導(dǎo)體和羅姆半導(dǎo)體分
    的頭像 發(fā)表于 05-06 16:45 ?3002次閱讀
    半導(dǎo)體廠(chǎng)商<b class='flag-5'>在</b><b class='flag-5'>音頻</b>電子<b class='flag-5'>方面的</b>三個(gè)新發(fā)展

    AI Codec應(yīng)用落地方面的案例

    ),展現(xiàn)了強(qiáng)大的技術(shù)潛力。但受限于計(jì)算復(fù)雜度、非標(biāo)等原因,AI Codec應(yīng)用落地方面的案例卻屈指可數(shù)。LiveVideoStackCon2022北京站邀請(qǐng)了來(lái)自雙深科技的田康為大家
    的頭像 發(fā)表于 06-19 09:50 ?1659次閱讀
    <b class='flag-5'>AI</b> Codec<b class='flag-5'>在</b>應(yīng)用落地<b class='flag-5'>方面的</b>案例

    光通信技術(shù)醫(yī)療健康方面的應(yīng)用

    光通信技術(shù)醫(yī)療健康方面的應(yīng)用是一個(gè)日益受到關(guān)注且快速發(fā)展的領(lǐng)域。隨著科技的進(jìn)步,光通信技術(shù)以其高速、大容量、低損耗、抗干擾等優(yōu)勢(shì),醫(yī)療設(shè)備的研發(fā)、診斷、治療及健康管理等方面展現(xiàn)出了
    的頭像 發(fā)表于 08-09 16:19 ?2987次閱讀

    處理人工智能方面的應(yīng)用

    處理人工智能(AI方面的應(yīng)用日益廣泛且深入,成為了推動(dòng)AI技術(shù)發(fā)展的重要力量。本文將從微處理
    的頭像 發(fā)表于 08-22 14:21 ?2198次閱讀

    AI環(huán)境可持續(xù)發(fā)展方面的作用

    近日,《聯(lián)合國(guó)氣候變化框架公約》締約方會(huì)議第二十九次會(huì)議(COP29)阿塞拜疆巴庫(kù)落下帷幕,與會(huì)者們齊聚于此,共同應(yīng)對(duì)氣候變化。AI 環(huán)境可持續(xù)發(fā)展方面的作用成為了本屆大會(huì)關(guān)注的焦
    的頭像 發(fā)表于 11-27 11:24 ?1414次閱讀