91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

多語種語音助手 構建本地語音交互內(nèi)容生態(tài)

傳音控股 ? 來源:傳音控股 ? 2023-09-15 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

伴隨著5G人工智能技術的發(fā)展,智能語音已經(jīng)隨著各種智能終端產(chǎn)品滲透到人們的日常生活中,帶來了更多便捷和可能性。作為新興市場智能終端產(chǎn)品和移動互聯(lián)服務提供商,傳音聚焦人工智能領域持續(xù)創(chuàng)新,不斷推進AI語音技術的研究和應用,挖掘更多本地化用戶場景要求,為新興市場用戶帶來全場景智能交互體驗。

目前,傳音已經(jīng)在語音識別、語義理解、語音合成、自然語言處理、知識圖譜等方面形成了的自身的AI語音底層技術能力,構建起小語種語音數(shù)據(jù)優(yōu)勢,并在多語種語音助手、數(shù)字人、語音偽造檢測技術方面取得了重大突破。今年以來,傳音AI技術部成果不斷,接連在ICASSP 2023 SLU口語理解挑戰(zhàn)賽、IJCAI 2023 ADD 語音深度偽造檢測國際挑戰(zhàn)賽奪得佳績,并在國際多媒體旗艦學術會議ICME 2023上發(fā)表數(shù)字人多模態(tài)交互的相關學術論文。

多語種語音助手

構建本地語音交互內(nèi)容生態(tài)

語音助手是智能手機的標配應用之一,其核心技術為語音交互和自然語言理解,旨在幫助用戶更快捷、高效地執(zhí)行目標任務。面對新興市場本地語音交互的需求,傳音長期深耕多語種語音助手技術,著力洞察本地用戶需求,形成技術解決方案,在探索和研發(fā)過程中沉淀了深厚的技術能力和實踐經(jīng)驗。

在語音技術領域國際頂級會議ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)組織的2023口語理解挑戰(zhàn)賽SLU(Spoken Language Understanding)中,傳音AI技術部憑借在語音識別和語義理解方面的突出表現(xiàn),以71.97%的準確率獲斬獲離線語音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協(xié)會(Institute of Electrical and Electronics Engineers)收錄。

當前,語音助手主要面向主流語言,而對小眾語言、特定人群等細分領域覆蓋較少。傳音針對非洲、南亞等新興市場用戶的本地口音和小語種,依托海量手機用戶資源,建設了一套本地化低成本、高質(zhì)量的語料數(shù)據(jù)生產(chǎn)體系,解決小語種語料匱乏、數(shù)據(jù)稀缺的問題。在此基礎上,傳音開發(fā)能適應新興市場本地用戶語言文化特點的多語種語音助手,幫助當?shù)赜脩舾颖憬莸厥褂帽镜卣Z言與手機進行語音交互。目前,傳音的多語種語音助手技術已支持英語、法語、豪薩語、阿拉伯語、斯瓦西里語等語言的語音交互和自然語言理解能力,覆蓋聯(lián)系人通話、APP快速啟動、音樂播放、WhatsApp消息、閑聊等100多種使用場景。

面向本地用戶生活服務的訴求,傳音的多語種AI語音助手技術將不斷接入更多生活、出行、學習、工作等場景的生態(tài)服務,構建多領域跨語言的AI內(nèi)容服務生態(tài),讓智能化語音服務滲透到本地生活的方方面面,讓更多小語種的使用人群受益。

AI+數(shù)字人技術

賦能傳音多場景業(yè)務

隨著交互智能技術的加速發(fā)展,數(shù)字人正在從技術創(chuàng)新走向產(chǎn)業(yè)應用,在娛樂、教育、醫(yī)療等多個領域發(fā)揮作用。傳音積極擁抱AI發(fā)展機遇,提前布局數(shù)字人技術,建立了完備的全鏈路技術和工程化的自研能力。傳音數(shù)字人系統(tǒng),包含2D真人和3D寫實數(shù)字人,擁有基于多語種的語音識別、語音合成、語音喚醒、自然語言理解和數(shù)字人等能力的數(shù)據(jù)資源,在多語種語音對話、人設和外觀、智能化場景交互等領域形成了自身的本地化特色和行業(yè)領先性。今年1月,傳音數(shù)字人系統(tǒng)獲得由中國信通院所頒發(fā)的數(shù)字人領域權威標準認證。這也是當前唯一通過中國信通院評測,以“交互對話”為核心的中國手機廠商數(shù)字人系統(tǒng)。

為了提高虛擬形象的仿真效果、合成出逼真且富有表現(xiàn)力的數(shù)字人視頻,傳音AI技術部自研端到端技術,在優(yōu)化數(shù)字人視頻生成質(zhì)量的過程中,基于Unet網(wǎng)絡提出了一種新的技術框架densely-connected Unet結構,同時引入了CLIP的encoder結構,利用文本語義信息提升數(shù)字人嘴部動畫效果。同時該技術提出人臉關鍵點技術的概率密度圖,增加了模型網(wǎng)絡的模態(tài)信息,提升了模型生成的質(zhì)量。這一技術突破能夠讓數(shù)字人的面部形象更加真實、細膩,同時提升語音和唇形的一致性,其生成效果達到了學術上的領先水平。相關學術論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國際多媒體旗艦學術會議ICME 2023(IEEE International Conference on Multimedia and Expo)成功錄用。

3be92740-536c-11ee-a25d-92fbcf53809c.png

目前,傳音數(shù)字人系統(tǒng)已經(jīng)深度應用于多業(yè)務場景,不僅落地海外手機門店,擔任智能導購員為用戶購買手機提供參考,還作為智能語音助手賦能多類智能終端產(chǎn)品,提升用戶體驗。下一步傳音將通過“AI+數(shù)字人”技術賦能多場景業(yè)務,積極探索數(shù)字人版語音助手和客服系統(tǒng)等新業(yè)務形態(tài),為用戶帶來全新的智能交互體驗。

持續(xù)構建AI語音底層技術能力

在AI技術快速發(fā)展的現(xiàn)今,算法生成音頻和音頻偽造已經(jīng)可以做到以假亂真,對于普通用戶來說辨別音頻真假非常困難。為了維護信息的可信性、保障社會安全,語音偽造檢測技術變得至關重要,已經(jīng)成為人工智能領域的一個較新的研究方向。傳音圍繞智能終端產(chǎn)品業(yè)務場景,以本地用戶需求為導向,不斷延伸AI語音底層技術能力,布局新技術領域,在語音偽造檢測技術上取得了重大突破。

傳音AI技術部在國際人工智能聯(lián)合會議IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)組織的第二屆語音深度偽造檢測國際挑戰(zhàn)賽ADD(The Second Audio Deepfake Detection Challenge)“篡改區(qū)域定位”(Manipulation Region Location)分賽道上奪得第二名。在比賽中,傳音AI技術部自研創(chuàng)新的AI模型算法和技術,能夠準確識別并定位音頻中語音的篡改行為,從而有效保障數(shù)字音頻的原始性和真實性,為AI應用及信息安全建設提供新思路。相關學術論文已成功發(fā)表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)會議上。

下一步,傳音AI技術部將繼續(xù)探索語音深度偽造檢測技術在傳音智能終端產(chǎn)品上的應用,如通話詐騙檢查保護用戶隱私安全等,不斷提升用戶使用體驗。

未來,傳音將繼續(xù)在AI語音多模態(tài)技術領域發(fā)力,圍繞“手機+移動互聯(lián)網(wǎng)服務+家電、數(shù)碼配件”核心業(yè)務需求,結合對新興市場和本地消費者的深刻洞察,為用戶提供適切其需求的智能生活體驗,形成本地化的AI內(nèi)容服務生態(tài),持續(xù)滿足多語種、多場景、個性化、智能化的應用需求。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能手機
    +關注

    關注

    66

    文章

    18690

    瀏覽量

    186036
  • 人工智能技術

    關注

    2

    文章

    223

    瀏覽量

    10978
  • AI芯片
    +關注

    關注

    17

    文章

    2126

    瀏覽量

    36758
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14665

原文標題:傳音持續(xù)深耕AI語音多模態(tài)技術,打造本地化智能交互體驗

文章出處:【微信號:TranssionHoldings,微信公眾號:傳音控股】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    給智能門鎖“裝個移動硬盤”:廣州唯創(chuàng)電子WTV語音芯片外置SPI Flash方案破解多語種語音存儲困局

    廠家,以其創(chuàng)新的WTV系列語音芯片外置SPIFlash方案,如同給門鎖配備了一個“海量移動硬盤”,徹底破解了智能門鎖的多語種語音存儲困局。一、行業(yè)痛點:智能門鎖的“
    的頭像 發(fā)表于 11-17 07:43 ?764次閱讀
    給智能門鎖“裝個移動硬盤”:廣州唯創(chuàng)電子WTV<b class='flag-5'>語音</b>芯片外置SPI Flash方案破解<b class='flag-5'>多語種</b><b class='flag-5'>語音</b>存儲困局

    “芯”聲代,智未來—VS680本地語音交互系統(tǒng) #語音交互 #芯片

    語音交互
    深蕾半導體
    發(fā)布于 :2025年09月17日 10:59:30

    云知聲多項業(yè)務營收大漲

    依托山海大模型,云知聲不斷開拓陣地,開發(fā)了面向東盟等海外市場和國內(nèi)方言市場的語音大模型,模型顯著提升了在多語種、多方言環(huán)境下的語音識別、語義理解和高質(zhì)量語音生成能力,改善了
    的頭像 發(fā)表于 09-10 15:44 ?659次閱讀

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關村管委會主辦,北京語言大學、北京第二外國語學院、北京市翻譯協(xié)會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1233次閱讀

    智能語音交互升級,九芯語音識別芯片來助力

    在科技飛速發(fā)展的當下,智能語音交互已經(jīng)深度融入我們的生活,從智能家居的便捷操控,到車載電子的安全駕駛輔助,再到智能玩具的趣味互動,語音識別技術無處不在。然而,在眾多語音芯片產(chǎn)品中,如何
    的頭像 發(fā)表于 08-11 14:08 ?952次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>升級,九芯<b class='flag-5'>語音</b>識別芯片來助力

    廣和通發(fā)布自研端側語音識別大模型FiboASR

    、高效會議記錄、多語種即時翻譯等核心領域?qū)崿F(xiàn)重大技術突破,致力于為終端用戶帶來更自然、高效、私密的語音交互體驗。
    的頭像 發(fā)表于 08-04 11:43 ?1582次閱讀

    智能提示器:WT4101雷達感應+WT2605C在線語音合成技術,重塑場景化交互新體驗

    提示器真正的智能提示器是怎么樣的?集遠距離感應、多語種實時合成、低功耗運行和場景化智能響應于一體!想象一下,當你匆忙趕到公司時,墻上的提示器卻因為感應范圍有限而"視
    的頭像 發(fā)表于 08-02 18:02 ?723次閱讀
    智能提示器:WT4101雷達感應+WT2605C在線<b class='flag-5'>語音</b>合成技術,重塑場景化<b class='flag-5'>交互</b>新體驗

    普強智能語音技術重新定義車載交互邊界

    普強憑借自主研發(fā)的智能語音技術,為某國內(nèi)頭部車企提供的語音前處理、喚醒詞、ASR、TTS等技術模塊,構建覆蓋泰語、俄語、韓語、日語等多語種語音
    的頭像 發(fā)表于 07-11 14:00 ?1164次閱讀

    智能語音交互別再瞎選語音芯片了!NRK3502 才是你的最優(yōu)解!

    在科技飛速發(fā)展的當下,智能產(chǎn)品如潮水般涌入我們的生活,從智能家居到智能醫(yī)療,從智能玩具到工業(yè)控制,語音交互技術已成為提升產(chǎn)品競爭力的關鍵因素。但在眾多語音芯片中徘徊不定?擔心選錯芯片導致產(chǎn)品
    的頭像 發(fā)表于 07-10 07:03 ?641次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>別再瞎選<b class='flag-5'>語音</b>芯片了!NRK3502 才是你的最優(yōu)解!

    語音助手只能聊天?啟明云端AI語音交互方案偷偷修煉了音樂才藝!

    語音助手只能聊天?太out了!”語音交互的新樂章已經(jīng)奏響!啟明云端基于樂鑫科技芯片的AI語音方案正式解鎖音樂技能樹,只需一句指令,智能設備
    的頭像 發(fā)表于 06-27 18:03 ?915次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>助手</b>只能聊天?啟明云端AI<b class='flag-5'>語音</b><b class='flag-5'>交互</b>方案偷偷修煉了音樂才藝!

    芯資訊|廣州唯創(chuàng)電子WTK6900P語音識別芯片:離線語音交互的革新者

    在智能設備全面普及的浪潮中,語音交互技術正逐步從“云端依賴”向“本地化高效處理”演進。廣州唯創(chuàng)電子推出的WTK6900P語音識別芯片,憑借其本地
    的頭像 發(fā)表于 05-22 09:22 ?785次閱讀
    芯資訊|廣州唯創(chuàng)電子WTK6900P<b class='flag-5'>語音</b>識別芯片:離線<b class='flag-5'>語音</b><b class='flag-5'>交互</b>的革新者

    廣州唯創(chuàng)電子WT3000A離在線TTS語音提示器芯片IC設計方案深度解析

    引言:語音交互的智能化躍遷在全球化與智能化深度融合的今天,語音交互設備的應用場景已從單一提示功能向多語言支持、情感化表達及AI深度
    的頭像 發(fā)表于 04-25 09:13 ?788次閱讀
    廣州唯創(chuàng)電子WT3000A離在線TTS<b class='flag-5'>語音</b>提示器芯片IC設計方案深度解析

    智能座艙:車載語音交互測試內(nèi)容

    隨著汽車智能化的飛速發(fā)展,車載語音交互系統(tǒng)已從早期的輔助功能逐漸演變?yōu)橹悄茏摰暮诵?b class='flag-5'>交互方式之一。駕駛者通過語音指令即可輕松完成導航設置、音樂播放、電話撥打,甚至車輛部分功能的控制,這
    的頭像 發(fā)表于 04-24 15:29 ?2160次閱讀
    智能座艙:車載<b class='flag-5'>語音</b><b class='flag-5'>交互</b>測試<b class='flag-5'>內(nèi)容</b>

    智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

    一、行業(yè)應用背景在零售業(yè)態(tài)智能化轉型的浪潮中,收銀設備正經(jīng)歷從功能型向服務型轉變的關鍵階段。WT3000T8語音合成芯片應運而生,專為滿足新零售場景下智能收銀終端的語音交互需求而設計。該芯片通過創(chuàng)新
    的頭像 發(fā)表于 04-24 08:45 ?977次閱讀
    智能收銀<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新標桿—WT3000T8<b class='flag-5'>語音</b>合成芯片TTS技術應用解析

    普強信息入選2024語音識別技術公司TOP30榜單

    企業(yè)數(shù)字化升級,這一榮譽不僅體現(xiàn)了普強在語音交互、語義理解、多語種識別等核心技術上的領先優(yōu)勢,更是對普強自主研發(fā)的端到端語音識別系統(tǒng)在高噪聲環(huán)境、復雜口音等極端場景下仍能保持95%以上
    的頭像 發(fā)表于 04-18 17:25 ?1201次閱讀