91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

美國公司構(gòu)建新型機(jī)器學(xué)習(xí)模型,可從音頻中捕捉到重大安全事故的信息

如意 ? 來源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-09-04 11:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在美國各大主要城市,市民一天24小時(shí)會(huì)切到數(shù)千個(gè)公共第一響應(yīng)者無線電波,這些信息用于給500多萬用戶提供火災(zāi)、搶劫和失蹤等突發(fā)事件的實(shí)時(shí)安全警報(bào)。每天人們收聽音頻的總時(shí)長(zhǎng)會(huì)超過1000小時(shí),這給需要開發(fā)新城市的公司帶來了挑戰(zhàn)。

因此,我們構(gòu)建了一個(gè)機(jī)器學(xué)習(xí)模型,它可以從音頻中捕捉到重大安全事故的信息。

定制的軟件適用無線電(SDR)會(huì)捕捉大范圍內(nèi)的無線電頻率(RF),將優(yōu)化后的音頻片段發(fā)送到ML模型進(jìn)行標(biāo)記。標(biāo)記后的片段會(huì)被發(fā)送至操作分析員,他們將在app中記錄事件,最后通知事故地點(diǎn)附近的用戶。

美國公司構(gòu)建新型機(jī)器學(xué)習(xí)模型,可從音頻中捕捉到重大安全事故的信息

安全警報(bào)工作流程(圖自作者)

為適應(yīng)問題領(lǐng)域,調(diào)整一個(gè)公共語音轉(zhuǎn)文本引擎

美國公司構(gòu)建新型機(jī)器學(xué)習(xí)模型,可從音頻中捕捉到重大安全事故的信息

運(yùn)用公共語音轉(zhuǎn)文本引擎的剪輯分類器 (圖自作者)

依據(jù)單詞錯(cuò)誤率(WER),我們將從一個(gè)性能最好的語音轉(zhuǎn)文本引擎著手。很多警察使用的特殊代碼都不是白話,例如,紐約警察局官員會(huì)發(fā)送“信號(hào)13”來請(qǐng)求后備部隊(duì)。

我們使用語音上下文定制詞匯表。為適應(yīng)領(lǐng)域,我們還擴(kuò)充了一些詞匯,例如,“assault”并不通俗,但常見于領(lǐng)域中,模型應(yīng)檢測(cè)出“assault”而不是“a salt”。

調(diào)整參數(shù)之后,我們能夠在一些城市獲得相對(duì)準(zhǔn)確的轉(zhuǎn)錄。接下來,我們要使用音頻片段的轉(zhuǎn)錄數(shù)據(jù),找出哪些與市民相關(guān)。

基于轉(zhuǎn)錄和音頻特征的二值分類器

我們建立了一個(gè)二進(jìn)制分類問題的模型,其中轉(zhuǎn)錄作為輸入,置信水平作為輸出,XGBoost算法為數(shù)據(jù)集提供了最好的性能。

我們從一位前執(zhí)法部門工作人員處了解到,在重大事件的無線電廣播之前,一些城市會(huì)發(fā)出特殊警報(bào)音以引起當(dāng)?shù)鼐降淖⒁?。這個(gè)“額外”的特征使我們的模型更加可靠,尤其是在轉(zhuǎn)錄出錯(cuò)的情況下。其他一些有用的特征是警察頻道和傳輸ID。

我們?cè)诓僮髁鞒讨袑?duì)ML模型進(jìn)行了測(cè)試。運(yùn)行了幾天后,我們注意到在事件中,那些只使用帶了模型標(biāo)記的片段的分析員未出差錯(cuò)。

我們?cè)趲讉€(gè)城市推出了這種模式?,F(xiàn)在一個(gè)分析師可以同時(shí)處理多個(gè)城市的音頻,這在以前是不可能的。隨著投入運(yùn)營的閑置產(chǎn)能增多,我們得以開發(fā)新的城市。

超越公共語音轉(zhuǎn)文本引擎

這個(gè)模型并不是解決所有問題的靈丹妙藥,我們只能在少數(shù)幾個(gè)音質(zhì)好的城市使用它。公共語音轉(zhuǎn)文本引擎是按照聲學(xué)剖面不同于收音機(jī)的音素模型訓(xùn)練的,因此,轉(zhuǎn)錄的質(zhì)量有時(shí)是不可靠的。對(duì)于那些非常嘈雜的老式模擬系統(tǒng)來說,轉(zhuǎn)錄是完全不可用的。

我們嘗試了多個(gè)來源的多個(gè)模型,但沒有一個(gè)是按照與數(shù)據(jù)集相似的聲學(xué)剖面訓(xùn)練的,全都無法處理嘈雜的音頻。

我們?cè)囍迷诒WC管道其他部分不變的情況下由數(shù)據(jù)訓(xùn)練出的語音轉(zhuǎn)文本引擎,替換原語音轉(zhuǎn)文本引擎。然而,為了音頻,我們需要幾百小時(shí)的轉(zhuǎn)錄數(shù)據(jù),而生成這些數(shù)據(jù)耗時(shí)耗財(cái)。

我們還有個(gè)優(yōu)化過程的選擇,就是只抄寫詞匯表中定義為“重要”的單詞,并為不相關(guān)的單詞添加空格,但這仍然只是在逐步減少工作量而已。最后,我們決定為問題領(lǐng)域建立一個(gè)定制的語音處理管道。

用于關(guān)鍵詞識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)

因?yàn)槲覀冎魂P(guān)心關(guān)鍵字,所以并不需要知道單詞正確的順序,由此可簡(jiǎn)化問題為關(guān)鍵字識(shí)別。這就簡(jiǎn)單多了,我們決定使用在數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)或長(zhǎng)短期記憶(LSTM)模型之上使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)意味著我們可以更快地訓(xùn)練和重復(fù)。我們?cè)u(píng)估了Transformer模型,其大致相同,但需要大量硬件才能運(yùn)行。

由于我們只在音頻段之間尋找短期的依賴關(guān)系來檢測(cè)單詞,計(jì)算簡(jiǎn)單的CNN似乎優(yōu)于Transformer模型,同時(shí)它能騰出硬件空間,從而可以通過超參數(shù)調(diào)整更加靈活。

美國公司構(gòu)建新型機(jī)器學(xué)習(xí)模型,可從音頻中捕捉到重大安全事故的信息

用于識(shí)別關(guān)鍵字并運(yùn)用了卷積神經(jīng)網(wǎng)絡(luò)的剪輯標(biāo)記模型(圖自作者)

音頻片段會(huì)被分成固定時(shí)長(zhǎng)的子片段。如果詞匯表中的一個(gè)單詞出現(xiàn)了,該子片段會(huì)被加上一個(gè)正標(biāo)簽。然后,如果在某個(gè)片段中發(fā)現(xiàn)任何這樣的子片段,該音頻片段會(huì)被標(biāo)記為有用。

在訓(xùn)練過程中,我們嘗試改變子片段的時(shí)長(zhǎng)以判斷其如何影響融合性能。長(zhǎng)的片段讓模型更難確定片段的哪個(gè)部分會(huì)有用,也讓模型更難調(diào)試。短片段意味著部分單詞會(huì)出現(xiàn)在多個(gè)剪輯中,這使得模型更難識(shí)別出它們。調(diào)整這個(gè)超參數(shù)并找到一個(gè)合理的時(shí)長(zhǎng)是能做到的。

對(duì)于每個(gè)子片段,我們將音頻轉(zhuǎn)換成梅爾倒譜系數(shù)(MFCC),并添加一階和二階導(dǎo)數(shù),特征以25ms的幀大小和10ms的步幅生成。然后,通過Tensorflow后端輸入到基于Keras序列模型的神經(jīng)網(wǎng)絡(luò)中。

第一層是高斯噪聲,這使得模型耐得住不同無線信道之間的噪聲差異。我們嘗試了另一種方法,人為地將真實(shí)的噪音疊加到片段上,但這大大放緩了訓(xùn)練,卻沒有顯著的性能提升。

然后,我們添加了Conv1D、BatchNormalization和MaxPooling1D三個(gè)后續(xù)層。批處理規(guī)范化有助于模型收斂,最大池化有助于使模型耐得住語音和信道噪聲的細(xì)微變化。另外,我們?cè)囍黾恿嗣撀鋵?,但這些脫落層并未有效改進(jìn)模型。

最后,添加一個(gè)密集連接的神經(jīng)網(wǎng)絡(luò)層,將其注入到一個(gè)有著sigmoid函數(shù)激活的單一輸出密集層。

生成標(biāo)記數(shù)據(jù)

音頻剪輯的標(biāo)記過程(圖自作者)

為了標(biāo)記訓(xùn)練數(shù)據(jù),我們把問題領(lǐng)域的關(guān)鍵字列給了注釋者,并要求他們?nèi)绻性~匯表里的單詞出現(xiàn),必須為片段標(biāo)記好開始和結(jié)束位置和單詞標(biāo)簽。

為了確保注釋的可靠性,我們?cè)谧⑨屍髦g有10%的重疊,并計(jì)算了它們?cè)谥丿B片段上的表現(xiàn)。一旦有了大約50小時(shí)的標(biāo)記數(shù)據(jù)就會(huì)啟動(dòng)訓(xùn)練,我們會(huì)在重復(fù)訓(xùn)練的過程中不斷收集數(shù)據(jù)。

由于詞匯表中的一些單詞比另一些單詞更為常見,模型針對(duì)于普通單詞來說表現(xiàn)正常,但是對(duì)于僅有較少示例的單詞卻遇到了困難。

我們?cè)噲D將單字發(fā)音覆蓋在其他片段中,借以人為制造示例。然而,性能的提升與這些單詞的實(shí)際標(biāo)記量不相稱。最終,模型對(duì)于常用詞等會(huì)更加敏感,我們?cè)谖幢粯?biāo)記的音頻片段上運(yùn)行該模型,并消除掉那些含有已習(xí)得單詞的片段,這有助于減少未來標(biāo)記時(shí)多余的詞語。

模型的發(fā)行

經(jīng)過幾次重復(fù)的數(shù)據(jù)收集和超參數(shù)調(diào)整,我們已能訓(xùn)練出一個(gè)對(duì)詞匯表里的詞語具有高查全率和精準(zhǔn)捕捉能力的模型。高查全率對(duì)于捕捉關(guān)鍵的安全警報(bào)非常重要。標(biāo)記的片段會(huì)在發(fā)送警報(bào)之前被收聽,因此誤報(bào)不是一個(gè)大問題。

我們?cè)诩~約市的一些區(qū)對(duì)這個(gè)模型進(jìn)行了測(cè)試,該模型能夠?qū)⒁纛l音量降低50–75%(取決于頻道),它明顯超越了我們?cè)诠舱Z音轉(zhuǎn)文本引擎上訓(xùn)練的模型,因?yàn)榧~約由于模擬系統(tǒng)有非常嘈雜的音頻。

令人驚訝的是,盡管模型是根據(jù)紐約市的數(shù)據(jù)訓(xùn)練的,但它也可以很好地切換到芝加哥的音頻。在收集了幾個(gè)小時(shí)的芝加哥片段之后,從紐約市模型中學(xué)到的東西轉(zhuǎn)移到芝加哥,該模型也表現(xiàn)良好。

語音處理管道與定制的深度神經(jīng)網(wǎng)絡(luò)廣泛適用于來自美國主要城市的警察音頻。它從音頻中發(fā)現(xiàn)了重大的安全事故,使全國范圍的市民能夠迅速向城市廣播,履行保護(hù)社區(qū)安全的使命。

在RNN、LSTM或Transformer中選擇計(jì)算簡(jiǎn)單的CNN架構(gòu),以及簡(jiǎn)化標(biāo)記過程,這些都是重大的突破,使我們能在限時(shí)限材的情況下超越公共語音轉(zhuǎn)文本模型。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 音頻
    +關(guān)注

    關(guān)注

    31

    文章

    3196

    瀏覽量

    85695
  • RF
    RF
    +關(guān)注

    關(guān)注

    66

    文章

    3202

    瀏覽量

    171882
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8556

    瀏覽量

    137049
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    靜電電流能用示波器電流探頭捕捉嗎?真相一文說清

    在電子測(cè)量實(shí)操,不少工程師會(huì)遇到這樣的疑問:日常用來檢測(cè)電流的示波器電流探頭,能不能捕捉到靜電電流?其實(shí)答案很明確——常規(guī)示波器電流探頭無法直接捕捉靜電電流,核心問題出在靜電電流的獨(dú)特特性,與常規(guī)
    的頭像 發(fā)表于 02-28 08:58 ?316次閱讀

    無線傾角傳感器在房屋監(jiān)測(cè)的應(yīng)用:捕捉事故前的沉默信號(hào)

    直川科技無線傾角傳感器精度達(dá)±0.005°,可連續(xù)捕捉房屋事故前的微小傾角變化。在江蘇昆山紫竹公寓項(xiàng)目中,成功識(shí)別無外觀異常的持續(xù)傾斜趨勢(shì),實(shí)現(xiàn)早期干預(yù)。設(shè)備支持3–5年免維護(hù)運(yùn)行,為房屋安全提供基于數(shù)據(jù)的趨勢(shì)預(yù)警能力。
    的頭像 發(fā)表于 01-21 10:56 ?666次閱讀
    無線傾角傳感器在房屋監(jiān)測(cè)<b class='flag-5'>中</b>的應(yīng)用:<b class='flag-5'>捕捉</b><b class='flag-5'>事故</b>前的沉默信號(hào)

    才茂通信輸電線路在線監(jiān)測(cè)系統(tǒng)助力電網(wǎng)智慧運(yùn)維

    隨著城市建設(shè)的快速推進(jìn),輸電線路通道環(huán)境日趨復(fù)雜,施工外破、地質(zhì)災(zāi)害、極端天氣、鳥類破壞等人為與自然因素,持續(xù)威脅著電網(wǎng)的安全穩(wěn)定運(yùn)行,輕則導(dǎo)致線路故障,重則引發(fā)短路、倒塔等重大安全事故。
    的頭像 發(fā)表于 01-07 15:46 ?331次閱讀

    華為亮相2025城市大安全AI產(chǎn)業(yè)發(fā)展峰會(huì)

    11月5日,由宜興市大數(shù)據(jù)發(fā)展有限公司與華為技術(shù)有限公司聯(lián)合主辦的一場(chǎng)聚焦人工智能與城市安全深度融合的行業(yè)盛會(huì):“共聚AI泛生態(tài) 智啟產(chǎn)業(yè)新未來——城市大安全AI產(chǎn)業(yè)發(fā)展峰會(huì)暨華為中國
    的頭像 發(fā)表于 11-10 14:38 ?860次閱讀

    美國公司變?yōu)橹?b class='flag-5'>國公司,中國最大傳感器企業(yè)的往事秘辛(創(chuàng)始人首次披露)

    ? 編輯按:本文作者為陳大同,作為業(yè)界知名人物,陳大同深度參與了我國半導(dǎo)體產(chǎn)業(yè)的多個(gè)重大事件,本文,陳大同講述了其風(fēng)投往事,并首次披露了當(dāng)前中國最大的傳感器公司——豪威集團(tuán),如何從一家美國企業(yè)變成
    的頭像 發(fā)表于 09-04 18:15 ?4252次閱讀

    什么是“電壓暫降”?CET電技術(shù)供配電異常信息捕捉及故障診斷分析裝置

    為解決這一難點(diǎn),CET電技術(shù)研發(fā)的供配電異常信息捕捉及故障診斷分析裝置,具有2MHz/s高速瞬態(tài)捕捉和波形記錄功能,可捕捉0.5us±4k
    的頭像 發(fā)表于 08-28 14:49 ?894次閱讀
    什么是“電壓暫降”?CET<b class='flag-5'>中</b>電技術(shù)供配電異常<b class='flag-5'>信息</b><b class='flag-5'>捕捉</b>及故障診斷分析裝置

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競(jìng)爭(zhēng)對(duì)手的框架小10 倍,速度也快10 倍,甚至可以在最
    發(fā)表于 07-31 11:38

    FPGA在機(jī)器學(xué)習(xí)的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場(chǎng)可編程門陣列)作為一種靈活且高效的硬件加速平臺(tái)
    的頭像 發(fā)表于 07-16 15:34 ?2936次閱讀

    NVIDIA RTX Blackwell GPU為專業(yè)級(jí)視頻剪輯提供加速

    42 攝像機(jī)正在消費(fèi)級(jí)市場(chǎng)日益普及,它能夠捕捉到比大多數(shù)標(biāo)準(zhǔn)攝像機(jī)高一倍的顏色信息。與此同時(shí),生成式 AI 視頻模型的功能與質(zhì)量均在迅速提升,使全新工具和工作流成為可能。
    的頭像 發(fā)表于 07-04 15:00 ?1153次閱讀

    超聲波氣泡換能器:工業(yè)生產(chǎn)的“隱形衛(wèi)士”

    在工業(yè)生產(chǎn)的復(fù)雜海洋,氣泡的出現(xiàn)常常是潛在危機(jī)的信號(hào)。無論是液體輸送、化學(xué)反應(yīng),還是食品加工,氣泡的生成和存在都可能引發(fā)一系列問題:管道堵塞、反應(yīng)效率降低、產(chǎn)品質(zhì)量下降,甚至設(shè)備損壞和安全事故。而
    發(fā)表于 06-27 09:08

    超聲波氣泡換能器:工業(yè)生產(chǎn)的“隱形衛(wèi)士”

    在工業(yè)生產(chǎn)的復(fù)雜海洋,氣泡的出現(xiàn)常常是潛在危機(jī)的信號(hào)。無論是液體輸送、化學(xué)反應(yīng),還是食品加工,氣泡的生成和存在都可能引發(fā)一系列問題:管道堵塞、反應(yīng)效率降低、產(chǎn)品質(zhì)量下降,甚至設(shè)備損壞和安全事故。而
    的頭像 發(fā)表于 06-27 09:05 ?699次閱讀
    超聲波氣泡換能器:工業(yè)生產(chǎn)的“隱形衛(wèi)士”

    邊緣計(jì)算機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個(gè)機(jī)器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署到邊緣設(shè)備上,利用從ModbusTCP寄存器獲取的實(shí)時(shí)數(shù)據(jù)來預(yù)測(cè)一臺(tái)復(fù)古音頻放大器的當(dāng)前
    的頭像 發(fā)表于 06-11 17:22 ?1023次閱讀
    邊緣計(jì)算<b class='flag-5'>中</b>的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實(shí)時(shí)推理<b class='flag-5'>模型</b>部署與工業(yè)集成!

    國產(chǎn)地物光譜儀在“高光譜-機(jī)器學(xué)習(xí)模型構(gòu)建中的表現(xiàn)

    和可推廣性。 近年來,國產(chǎn)地物光譜儀在性能、穩(wěn)定性和數(shù)據(jù)一致性等方面取得了顯著進(jìn)步,不僅打破了對(duì)進(jìn)口設(shè)備的長(zhǎng)期依賴,也逐步展現(xiàn)出在“高光譜-機(jī)器學(xué)習(xí)模型構(gòu)建中的實(shí)力。 一、國產(chǎn)儀器的
    的頭像 發(fā)表于 04-18 16:15 ?771次閱讀
    國產(chǎn)地物光譜儀在“高光譜-<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>”<b class='flag-5'>模型</b><b class='flag-5'>構(gòu)建</b>中的表現(xiàn)

    云酷人員定位歷史軌跡功能:事故追溯的關(guān)鍵利器與安全管理革命

    定位歷史軌跡功能作為數(shù)字化安全管理的核心技術(shù),正在事故追溯展現(xiàn)出不可替代的價(jià)值。本文將深入探討這一功能如何重構(gòu)事故調(diào)查邏輯,為企業(yè)安全管理
    的頭像 發(fā)表于 04-02 15:57 ?590次閱讀
    云酷人員定位歷史軌跡功能:<b class='flag-5'>事故</b>追溯<b class='flag-5'>中</b>的關(guān)鍵利器與<b class='flag-5'>安全</b>管理革命

    Raspberry Pi Pico 2 上實(shí)現(xiàn):實(shí)時(shí)機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能

    Arm公司的首席軟件工程師SandeepMistry為我們展示了一種全新的巧妙方法:在RaspberryPiPico2上如何將音頻噪音抑制應(yīng)用于麥克風(fēng)輸入。機(jī)器學(xué)習(xí)(ML)技術(shù)徹底改變
    的頭像 發(fā)表于 03-25 09:46 ?1254次閱讀
    Raspberry Pi Pico 2 上實(shí)現(xiàn):實(shí)時(shí)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>(ML)<b class='flag-5'>音頻</b>噪音抑制功能