岛国av 在线播放,无码在线公开无码在线看

伴隨著5G、人工智能技術的發(fā)展，智能語音已經(jīng)隨著各種智能終端產(chǎn)品滲透到人們的日常生活中，帶來了更多便捷和可能性。作為新興市場智能終端產(chǎn)品和移動互聯(lián)服務提供商，傳音聚焦人工智能領域持續(xù)創(chuàng)新，不斷推進AI語音技術的研究和應用，挖掘更多本地化用戶場景要求，為新興市場用戶帶來全場景智能交互體驗。

目前，傳音已經(jīng)在語音識別、語義理解、語音合成、自然語言處理、知識圖譜等方面形成了的自身的AI語音底層技術能力，構建起小語種語音數(shù)據(jù)優(yōu)勢，并在多語種語音助手、數(shù)字人、語音偽造檢測技術方面取得了重大突破。今年以來，傳音AI技術部成果不斷，接連在ICASSP 2023 SLU口語理解挑戰(zhàn)賽、IJCAI 2023 ADD 語音深度偽造檢測國際挑戰(zhàn)賽奪得佳績，并在國際多媒體旗艦學術會議ICME 2023上發(fā)表數(shù)字人多模態(tài)交互的相關學術論文。

多語種語音助手

構建本地語音交互內(nèi)容生態(tài)

語音助手是智能手機的標配應用之一，其核心技術為語音交互和自然語言理解，旨在幫助用戶更快捷、高效地執(zhí)行目標任務。面對新興市場本地語音交互的需求，傳音長期深耕多語種語音助手技術，著力洞察本地用戶需求，形成技術解決方案，在探索和研發(fā)過程中沉淀了深厚的技術能力和實踐經(jīng)驗。

在語音技術領域國際頂級會議ICASSP（IEEE International Conference on Acoustics, Speech and Signal Processing）組織的2023口語理解挑戰(zhàn)賽SLU（Spoken Language Understanding）中，傳音AI技術部憑借在語音識別和語義理解方面的突出表現(xiàn)，以71.97%的準確率獲斬獲離線語音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協(xié)會（Institute of Electrical and Electronics Engineers）收錄。

當前，語音助手主要面向主流語言，而對小眾語言、特定人群等細分領域覆蓋較少。傳音針對非洲、南亞等新興市場用戶的本地口音和小語種，依托海量手機用戶資源，建設了一套本地化低成本、高質(zhì)量的語料數(shù)據(jù)生產(chǎn)體系，解決小語種語料匱乏、數(shù)據(jù)稀缺的問題。在此基礎上，傳音開發(fā)能適應新興市場本地用戶語言文化特點的多語種語音助手，幫助當?shù)赜脩舾颖憬莸厥褂帽镜卣Z言與手機進行語音交互。目前，傳音的多語種語音助手技術已支持英語、法語、豪薩語、阿拉伯語、斯瓦西里語等語言的語音交互和自然語言理解能力，覆蓋聯(lián)系人通話、APP快速啟動、音樂播放、WhatsApp消息、閑聊等100多種使用場景。

面向本地用戶生活服務的訴求，傳音的多語種AI語音助手技術將不斷接入更多生活、出行、學習、工作等場景的生態(tài)服務，構建多領域跨語言的AI內(nèi)容服務生態(tài)，讓智能化語音服務滲透到本地生活的方方面面，讓更多小語種的使用人群受益。

AI+數(shù)字人技術

賦能傳音多場景業(yè)務

隨著交互智能技術的加速發(fā)展，數(shù)字人正在從技術創(chuàng)新走向產(chǎn)業(yè)應用，在娛樂、教育、醫(yī)療等多個領域發(fā)揮作用。傳音積極擁抱AI發(fā)展機遇，提前布局數(shù)字人技術，建立了完備的全鏈路技術和工程化的自研能力。傳音數(shù)字人系統(tǒng)，包含2D真人和3D寫實數(shù)字人，擁有基于多語種的語音識別、語音合成、語音喚醒、自然語言理解和數(shù)字人等能力的數(shù)據(jù)資源，在多語種語音對話、人設和外觀、智能化場景交互等領域形成了自身的本地化特色和行業(yè)領先性。今年1月，傳音數(shù)字人系統(tǒng)獲得由中國信通院所頒發(fā)的數(shù)字人領域權威標準認證。這也是當前唯一通過中國信通院評測，以“交互對話”為核心的中國手機廠商數(shù)字人系統(tǒng)。

為了提高虛擬形象的仿真效果、合成出逼真且富有表現(xiàn)力的數(shù)字人視頻，傳音AI技術部自研端到端技術，在優(yōu)化數(shù)字人視頻生成質(zhì)量的過程中，基于Unet網(wǎng)絡提出了一種新的技術框架densely-connected Unet結構，同時引入了CLIP的encoder結構，利用文本語義信息提升數(shù)字人嘴部動畫效果。同時該技術提出人臉關鍵點技術的概率密度圖，增加了模型網(wǎng)絡的模態(tài)信息，提升了模型生成的質(zhì)量。這一技術突破能夠讓數(shù)字人的面部形象更加真實、細膩，同時提升語音和唇形的一致性，其生成效果達到了學術上的領先水平。相關學術論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國際多媒體旗艦學術會議ICME 2023（IEEE International Conference on Multimedia and Expo)成功錄用。

目前，傳音數(shù)字人系統(tǒng)已經(jīng)深度應用于多業(yè)務場景，不僅落地海外手機門店，擔任智能導購員為用戶購買手機提供參考，還作為智能語音助手賦能多類智能終端產(chǎn)品，提升用戶體驗。下一步傳音將通過“AI+數(shù)字人”技術賦能多場景業(yè)務，積極探索數(shù)字人版語音助手和客服系統(tǒng)等新業(yè)務形態(tài)，為用戶帶來全新的智能交互體驗。

持續(xù)構建AI語音底層技術能力

在AI技術快速發(fā)展的現(xiàn)今，算法生成音頻和音頻偽造已經(jīng)可以做到以假亂真，對于普通用戶來說辨別音頻真假非常困難。為了維護信息的可信性、保障社會安全，語音偽造檢測技術變得至關重要，已經(jīng)成為人工智能領域的一個較新的研究方向。傳音圍繞智能終端產(chǎn)品業(yè)務場景，以本地用戶需求為導向，不斷延伸AI語音底層技術能力，布局新技術領域，在語音偽造檢測技術上取得了重大突破。

傳音AI技術部在國際人工智能聯(lián)合會議IJCAI 2023（The 32nd International Joint Conference on Artificial Intelligence）組織的第二屆語音深度偽造檢測國際挑戰(zhàn)賽ADD（The Second Audio Deepfake Detection Challenge)“篡改區(qū)域定位”（Manipulation Region Location）分賽道上奪得第二名。在比賽中，傳音AI技術部自研創(chuàng)新的AI模型算法和技術，能夠準確識別并定位音頻中語音的篡改行為，從而有效保障數(shù)字音頻的原始性和真實性，為AI應用及信息安全建設提供新思路。相關學術論文已成功發(fā)表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023）會議上。

下一步，傳音AI技術部將繼續(xù)探索語音深度偽造檢測技術在傳音智能終端產(chǎn)品上的應用，如通話詐騙檢查保護用戶隱私安全等，不斷提升用戶使用體驗。

未來，傳音將繼續(xù)在AI語音多模態(tài)技術領域發(fā)力，圍繞“手機+移動互聯(lián)網(wǎng)服務+家電、數(shù)碼配件”核心業(yè)務需求，結合對新興市場和本地消費者的深刻洞察，為用戶提供適切其需求的智能生活體驗，形成本地化的AI內(nèi)容服務生態(tài)，持續(xù)滿足多語種、多場景、個性化、智能化的應用需求。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴