91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

交互式人工智能(CAI)簡介

一汀煙雨666 ? 來源:一汀煙雨666 ? 作者:一汀煙雨666 ? 2022-08-07 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本篇白皮書詳細(xì)介紹了自動語音識別(ASR)的應(yīng)用場景,以及Achronix如何在實現(xiàn)ASR解決方案的同時將相關(guān)成本降低高達(dá)90%。

交互式人工智能(CAI)簡介

什么是交互式人工智能(AI)?

交互式人工智能(CAI)使用機器學(xué)習(xí)(ML)的子集深度學(xué)習(xí)(DL),通過機器實現(xiàn)語音識別、自然語言處理和文本到語音的自動化。CAI流程通常用三個關(guān)鍵的功能模塊來描述:

1.語音轉(zhuǎn)文本(STT),也稱為自動語音識別(ASR)

2自然語言處理(NLP)

3文本轉(zhuǎn)語音(TTS)或語音合成



圖1:交互式AI構(gòu)建模塊 細(xì)分市場和應(yīng)用場景

僅在美國就有超過1.1億個虛擬助手在發(fā)揮作用[1],大多數(shù)人對使用CAI服務(wù)都很熟悉。主要示例包括移動設(shè)備上的語音助手,例如蘋果的Siri或亞馬遜的Alexa;筆記本電腦上的語音搜索助手,例如微軟的cortana;自動呼叫中心應(yīng)答助理;以及支持語音功能的設(shè)備,例如智能音箱、電視和汽車等。

支持這些CAI服務(wù)的深度學(xué)習(xí)算法可以在本地電子設(shè)備上進(jìn)行處理,或者聚集在云中進(jìn)行遠(yuǎn)程大規(guī)模處理。支持?jǐn)?shù)百萬用戶交互的大規(guī)模部署是一個巨大的計算處理挑戰(zhàn),超大規(guī)模的提供商已經(jīng)通過開發(fā)專用的芯片和設(shè)備來處理這些服務(wù)。

現(xiàn)在,大多數(shù)小型企業(yè)都可以使用亞馬遜、IBM、微軟和谷歌等公司提供的云API,輕松地將語音接口添加到他們的產(chǎn)品中。然而,當(dāng)這些工作負(fù)載的規(guī)模增加時(本白皮書后面將介紹一個具體的示例),使用這些云API的成本將會變得過高,迫使企業(yè)尋求其他解決方案。此外,許多企業(yè)運營對數(shù)據(jù)安全性有更高的要求,因此需要將解決方案必須保留在企業(yè)的數(shù)據(jù)安全范圍內(nèi)。

企業(yè)級CAI解決方案可用于以下應(yīng)用場景:

·自動呼叫中心

·語音和視頻通信平臺

·健康和醫(yī)療服務(wù)

·金融和銀行服務(wù)

·零售和售貨販賣設(shè)備

詳細(xì)介紹ASR處理過程

ASR是CAI流程的第一步,在這里語音被轉(zhuǎn)錄為文本。一旦文本可用,就可以使用自然語言處理(NLP)算法以多種方式對其進(jìn)行處理。NLP包括關(guān)鍵內(nèi)容識別、情感分析、索引、語境化內(nèi)容和分析。在端到端的交互式AI算法中,語音合成用于生成自然的語音響應(yīng)。

最先進(jìn)的ASR算法是通過端到端的深度學(xué)習(xí)來實現(xiàn)。不同于卷積神經(jīng)網(wǎng)絡(luò)(CNN),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在語音識別中很常見。正如來自TechTarget[10]的David Petersson在《CNN與RNN:它們有何不同?》文章中提到:RNN更適合處理時間數(shù)據(jù),與ASR應(yīng)用非常適配。基于RNN的模型需要較高的計算能力和存儲帶寬來處理神經(jīng)網(wǎng)絡(luò)模型,并滿足交互式系統(tǒng)所需的嚴(yán)格的延遲目標(biāo)。當(dāng)實時或自動響應(yīng)太慢時,它們會顯得遲緩和不自然。通常只有犧牲處理效率才能實現(xiàn)低延遲,這會增加成本,并且對于實際部署來說會變得過于龐大。

Achronix與采用現(xiàn)場可編程邏輯門陣列(FPGA)進(jìn)行AI推理的專業(yè)技術(shù)公司Myrtle.ai展開合作。Myrtle.ai利用其MAU推理加速引擎在FPGA上實現(xiàn)基于RNN的高性能網(wǎng)絡(luò)。該設(shè)計已集成到Achronix Speedster7t AC7t1500 FPGA器件中,可以利用Speedster7t架構(gòu)的關(guān)鍵架構(gòu)優(yōu)勢(將在本白皮書后面進(jìn)行探討),大幅提高實時ASR神經(jīng)網(wǎng)絡(luò)的加速處理,從而與服務(wù)器級中央處理器CPU)相比,可處理的實時數(shù)據(jù)流(RTS)的數(shù)量增加2500%。

數(shù)據(jù)加速器:如何實現(xiàn)資源的合理平衡分配

數(shù)據(jù)加速器可以卸載通常由主CPU執(zhí)行的計算、網(wǎng)絡(luò)和/或存儲處理工作負(fù)載,從而可以顯著減少服務(wù)器的占用空間。本白皮書介紹了用一臺服務(wù)器和一個Achronix基于ASR的加速卡可取代多達(dá)25臺服務(wù)器。這種架構(gòu)大大降低了工作負(fù)載成本、功耗和延遲,同時提高了工作負(fù)載吞吐量。然而,只有在硬件得到有效使用并且部署具有成本效益的情況下,使用數(shù)據(jù)加速硬件來實現(xiàn)高性能和低延遲才有意義。

ASR模型對現(xiàn)代數(shù)據(jù)加速器來說是一種挑戰(zhàn),通常需要手動調(diào)整以實現(xiàn)比平臺主要性能規(guī)格的個位數(shù)效率更高的性能。實時ASR工作負(fù)載需要高存儲帶寬以及高性能計算。這些大型神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)通常存儲在加速卡上的DDR存儲器中。將數(shù)據(jù)從外部存儲器傳輸?shù)接嬎闫脚_是該工作負(fù)載中的性能瓶頸,特別是在進(jìn)行實時部署的時候。

圖形處理器(GPU)架構(gòu)是基于數(shù)據(jù)并行模型,較小的批處理量(batchsize)會導(dǎo)致GPU加速硬件的利用率較低,從而導(dǎo)致成本增加和效率降低。硬件加速解決方案數(shù)據(jù)表(以TOPS即每秒萬億次操作為單位進(jìn)行衡量)中的性能數(shù)據(jù)并不能總是很好地表示實際性能,因為許多硬件加速器件由于與器件架構(gòu)相關(guān)的瓶頸而未得到充分利用。這些數(shù)據(jù)以TOPS為單位,強調(diào)了加速器計算引擎的處理能力,但忽略了關(guān)鍵因素,例如外部存儲器的批處理量、速度和規(guī)模,以及在外部存儲器和加速器計算引擎之間傳輸數(shù)據(jù)的能力。對于ASR工作負(fù)載,關(guān)注存儲帶寬和在加速器內(nèi)高效地傳輸數(shù)據(jù)為加速器性能和效率的實現(xiàn)提供了更強有力的指導(dǎo)。

加速器必須具有更大的外部存儲規(guī)模和非常高的帶寬。當(dāng)今的高端加速器通常使用高性能的外部存儲器,存儲規(guī)模達(dá)8-16GB,運行速度可高達(dá)4 Tbps。它還必須能夠?qū)⑦@些數(shù)據(jù)傳輸?shù)接嬎闫脚_而不會影響性能。然而,無論如何去實現(xiàn)高速存儲和計算引擎之間的數(shù)據(jù)通道,它幾乎在所有情況下都是系統(tǒng)性能的瓶頸,特別是在實時ASR這樣的低延遲應(yīng)用中。

FPGA設(shè)計旨在存儲和計算之間提供最佳的數(shù)據(jù)路由通道,從而為這些工作負(fù)載提供一個出色的加速平臺。

Achronix解決方案與其他FPGA解決方案的對比

在機器學(xué)習(xí)(ML)加速領(lǐng)域中,已有FPGA架構(gòu)宣稱其推理速度可高達(dá)150TOPS。然而在實際應(yīng)用中,尤其是在那些對延遲敏感的應(yīng)用(如ASR)中,由于無法在計算平臺和外部存儲器之間高效地傳輸數(shù)據(jù),所以這些FPGA遠(yuǎn)不能達(dá)到其聲稱的最高推理速度。由于數(shù)據(jù)從外部存儲器傳輸?shù)紽PGA器件中的計算引擎時出現(xiàn)了瓶頸,從而造成了這種性能上的損失。AchronixSpeedster7t架構(gòu)在計算引擎、高速存儲接口和數(shù)據(jù)傳輸之間取得了良好的平衡,使Speedster7t FPGA器件能夠為實時、低延遲的ASR工作負(fù)載提供高性能,可實現(xiàn)最高TOPS速率的64%等級。



圖2:Speedster7t器件的計算、存儲和數(shù)據(jù)傳輸能力

Speedster7t架構(gòu)如何實現(xiàn)更高的計算效率

在Speedster7t上搭載的機器學(xué)習(xí)處理器(MLP)是一種優(yōu)化的矩陣/向量乘法模塊,能夠在單個時鐘周期內(nèi)進(jìn)行32次乘法和1次累加,是計算引擎架構(gòu)的基礎(chǔ)。AC7t1500器件中的BlockRAM(BRAM)與2560個MLP實例都處于同一位置,這意味著更低的延遲和更高的吞吐量。

借助于這些關(guān)鍵的架構(gòu)單元,Myrtle.ai的MAU低延遲、高吞吐量的ML推理引擎已集成到Speedster7tFPGA器件中。

在構(gòu)建最佳的ASR解決方案時,集成了之前提到的來自Myrtle.ai的MAU推理引擎,使用了2560個MLP中的2000個。由于MLP是一個硬模塊,它可以運行在比FPGA邏輯陣列本身更高的時鐘速率上。



圖3:機器學(xué)習(xí)處理器

在AC7t1500器件中使用了8個GDDR6存儲控制器,它們總共可提供高達(dá)4Tbps的雙向帶寬。如上所述,強大的計算引擎和大容量、高帶寬的存儲依賴于高速、低延遲和確定性的數(shù)據(jù)傳輸,以提供低延遲ASR應(yīng)用所需的實時結(jié)果。

隨后這些數(shù)據(jù)進(jìn)入到Speedster7t的二維片上網(wǎng)絡(luò)(2DNoC)。該二維片上網(wǎng)絡(luò)是Speedster7t架構(gòu)中的另一種硬結(jié)構(gòu),時鐘頻率高達(dá)2 GHz,可與所有I/O、內(nèi)部硬模塊和FPGA邏輯陣列本身互連。憑借20Tbps的總帶寬,2D NoC提供了最高的吞吐量,并通過適當(dāng)?shù)膶崿F(xiàn)方式,可以在外部Gddr6存儲器和支持MLP的計算引擎之間提供最具確定性的、低延遲的數(shù)據(jù)傳輸。

poYBAGLs2BSAYtKOAAaTPlv6rNE471.png

圖4:總帶寬為20 Tbps的2D NoC

與其他競爭性廠商的解決方案不同,2DNoC消除了Speedster7t ASR解決方案在存儲器和計算引擎之間的任何瓶頸,在這些非常低的批處理速率下,硬件加速器的利用率達(dá)到最佳狀態(tài)。

將所有這些功能放在一個roofline圖中,就可以清楚地說明AchronixSpeedster7t器件在低延遲ASR應(yīng)用中相對于其他競爭性FPGA解決方案的優(yōu)勢。該roofline圖使用了由每個制造商公布的經(jīng)過驗證的TOPS數(shù)據(jù),展示了這些器件在實際應(yīng)用中可以達(dá)到的效果。

下圖顯示了一個有效TOPS的roofline模型,它使用了Achronix為微基準(zhǔn)(GEMV和MLP)和測試而構(gòu)建的子集,以及公司A[4] [5]和公司B(基于架構(gòu))發(fā)布的數(shù)據(jù)。橙色的豎線表示批處理量為8毫秒和80毫秒音頻模塊的最佳操作點,用于低延遲、實時ASR數(shù)據(jù)流應(yīng)用。在這個最佳操作點上,Achronix的有效TOPS比公司A提高了44%,比公司B的解決方案提高了260%。



圖5:有效TOPS的Roofline模型

在一年內(nèi)實現(xiàn)ASR處理成本降低高達(dá)90%的目標(biāo)

大多數(shù)ASR解決方案由Google、Amazon、microsoftAzure和Oracle等大型云服務(wù)提供商提供。隨著運營規(guī)模的擴大,以及這些產(chǎn)品在市場上取得的成功,在這些云API基礎(chǔ)上構(gòu)建產(chǎn)品的服務(wù)提供商面臨著越來越高的成本壓力。較大規(guī)模的ASR提供商公開宣傳成本從每分鐘0.01美元到0.025美元不等[6]、[7]、[8]、[9]。行業(yè)報告顯示,呼叫中心的平均呼叫時間約為5分鐘??紤]一個大型企業(yè)數(shù)據(jù)或呼叫中心服務(wù)公司每天要處理50,000通電話,每通電話5分鐘。按照上述費率計算,ASR處理成本將是每天1,500至6,000美元或每年50萬至200萬美元。Achronix和Myrtle.ai的解決方案可以集成在一個加速卡上支持處理4000個RTS,每天可以處理超過一百萬次的呼叫。

有許多因素會決定獨立ASR設(shè)備的成本。在這個特定示例中,假設(shè)Achronix ASR加速解決方案是通過基于FPGA的PCIe卡提供,并集成到基于x86架構(gòu)的2U服務(wù)器中。該設(shè)備從系統(tǒng)集成商那里出售,價格可能為50,000美元,而每年運行服務(wù)器的成本可能是這個成本的兩倍。這樣一來,本地ASR設(shè)備第一年的費用就達(dá)到了10萬美元。將這種本地解決方案與云API服務(wù)進(jìn)行比較,終端用戶可以在第一年節(jié)省5到20倍的費用。



表1:AchronixASR解決方案與云API服務(wù)的對比總結(jié)

高度緊湊的系統(tǒng)使企業(yè)能夠隨著其業(yè)務(wù)的增加而擴展,而無需依賴日益昂貴的ASR云API,也無需構(gòu)建龐大的數(shù)據(jù)中心基礎(chǔ)設(shè)施來提供本地解決方案。

總結(jié)

CAI中的ASR功能要求RNN機器學(xué)習(xí)算法具有低延遲、高吞吐量的計算,這對現(xiàn)代AI加速器提出了挑戰(zhàn)。聲稱推理速度高達(dá)150TOPS的FPGA硬件加速器在大型計算引擎和高速存儲器之間傳輸數(shù)據(jù)時會遇到瓶頸,這些瓶頸可能導(dǎo)致硬件利用率低至5%。Achronix和Myrtle.ai攜手推出一個ASR平臺,該平臺由一個200W、x16PCIe Gen4加速卡和相關(guān)軟件組成,可以同時支持多達(dá)4000個RTS,每24小時可以處理多達(dá)100萬個、時長5分鐘的轉(zhuǎn)錄文件。將單臺x86服務(wù)器上的PCIe加速卡與云ASR服務(wù)的成本相比,第一年的資本支出(CAPEX)和運營成本(OPEX)就可以降低高達(dá)90%。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22415

    瀏覽量

    636525
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    839

    瀏覽量

    40111
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265514
  • ASR
    ASR
    +關(guān)注

    關(guān)注

    2

    文章

    44

    瀏覽量

    19428
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強人工智能以及超人工智能? 弱人工智能(Weak AI),也稱限制領(lǐng)域
    的頭像 發(fā)表于 02-22 08:24 ?138次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    嵌入系統(tǒng)中的人工智能

    本文編譯自ElectronicDesign人工智能(AI)正徹底變革嵌入系統(tǒng),改變技術(shù)融入日常生活的方式。如今的人工智能不再局限于執(zhí)行基礎(chǔ)任務(wù),它還被應(yīng)用于智能汽車、工業(yè)自動化、醫(yī)療
    的頭像 發(fā)表于 12-18 11:49 ?1043次閱讀
    嵌入<b class='flag-5'>式</b>系統(tǒng)中的<b class='flag-5'>人工智能</b>

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代 在當(dāng)今全球視頻市場被直播主導(dǎo)的背景下,低延遲應(yīng)用不斷涌現(xiàn),對基礎(chǔ)設(shè)施和視頻處理技術(shù)的成本結(jié)構(gòu)及部署策略產(chǎn)生了深遠(yuǎn)影響。AMD推出
    的頭像 發(fā)表于 12-15 14:35 ?388次閱讀

    河南移動攜手華為完成交互式UE Logo全球首呼

    河南移動攜手華為成功打通全球首個交互式UE Logo First Call,正式開啟5G-A“體驗經(jīng)營2.0”新時代,在網(wǎng)絡(luò)能力產(chǎn)品化與用戶體驗升級領(lǐng)域樹立先鋒里程碑。
    的頭像 發(fā)表于 10-21 09:55 ?810次閱讀

    思必馳一鳴智能客服大模型通過生成人工智能服務(wù)備案

    近日,江蘇網(wǎng)信發(fā)布新一批生成人工智能服務(wù)備案信息,其中,由思必馳控股子公司馳必準(zhǔn)自主研發(fā)的一鳴智能客服大模型通過《生成人工智能服務(wù)管理暫
    的頭像 發(fā)表于 09-16 18:08 ?1211次閱讀

    人工智能正在重新定義嵌入系統(tǒng)

    人工智能(AI)正在從設(shè)計到功能等各個層面重新定義嵌入系統(tǒng)。
    的頭像 發(fā)表于 09-04 16:57 ?2051次閱讀

    商湯科技與中智集團合作成果入選首批中央企業(yè)人工智能戰(zhàn)略性高價值場景

    在第七屆世界人工智能大會(WAIC)上,國務(wù)院國資委專場發(fā)布了首批中央企業(yè)人工智能戰(zhàn)略性高價值場景,基于商湯科技為中智提供的人才發(fā)展大模型、數(shù)字員工應(yīng)用框架、交互式數(shù)字人等技術(shù),中智集團“AI數(shù)字人
    的頭像 發(fā)表于 08-12 11:35 ?1347次閱讀

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:23

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    軟通動力中標(biāo)無錫人工智能創(chuàng)新中心項目

    軟通動力憑借人工智能工程化一站服務(wù)能力成功中標(biāo)“無錫人工智能創(chuàng)新中心項目” ,中標(biāo)金額1.58億元。
    的頭像 發(fā)表于 05-27 17:45 ?988次閱讀

    生成人工智能認(rèn)證:解鎖AI時代個人與組織的進(jìn)化密碼

    當(dāng)人類站在智能革命的奇點回望,會發(fā)現(xiàn)技術(shù)迭代的速度早已超越個體認(rèn)知的進(jìn)化節(jié)奏。生成人工智能的爆發(fā)式發(fā)展,不僅重構(gòu)了知識生產(chǎn)與傳播的方式,更在職業(yè)領(lǐng)域掀起了一場靜默的革命。這場革命中,生成
    的頭像 發(fā)表于 05-23 09:47 ?560次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴展/重力感應(yīng)/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發(fā)表于 04-23 10:55

    聲智APP通過北京市生成人工智能服務(wù)登記

    近日,聲智APP已正式通過北京市第二批生成人工智能服務(wù)登記,成為《生成人工智能服務(wù)管理暫行辦法》(以下簡稱《辦法》)實施以來,北京市累計已完成46款生成
    的頭像 發(fā)表于 03-19 16:33 ?957次閱讀