傳音持續(xù)深化AI領(lǐng)域的產(chǎn)學(xué)研協(xié)同,積極推動(dòng)與國(guó)內(nèi)外知名高校的深度合作,圍繞AI視覺(jué)、語(yǔ)音、語(yǔ)言與大模型等方向推進(jìn)協(xié)同創(chuàng)新。日前,傳音TEX AI中心與中山大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)(Mohamed bin Zayed University of Artificial Intelligence,簡(jiǎn)稱MBZUAI)聯(lián)合開(kāi)展的“拍照解題”項(xiàng)目研究取得重要進(jìn)展,相關(guān)成果論文已被計(jì)算機(jī)視覺(jué)領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議CVPR 2026正式錄用。

論文鏈接:https://arxiv.org/abs/2512.19554
代碼鏈接:GitHub - yongxinwang-ai/CARE
CVPR是IEEE主辦的計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議,是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類會(huì)議,它與ICCV、ECCV并稱為計(jì)算機(jī)視覺(jué)領(lǐng)域“三大頂會(huì)”。據(jù)最新數(shù)據(jù),CVPR 2026共有逾三萬(wàn)人投稿,在進(jìn)入評(píng)審流程的16,092篇有效文章中,最終接收率僅25.42%,每篇論文都必須通過(guò)3-5位全球頂尖專家的雙盲評(píng)審。
近年來(lái),AI大模型在邏輯推理與復(fù)雜問(wèn)題求解方面的能力持續(xù)提升,但在實(shí)際應(yīng)用中,其在復(fù)雜數(shù)學(xué)題上的處理表現(xiàn)仍存在不足。例如,解題結(jié)果正確但推理過(guò)程存在邏輯漏洞,或步驟看似完整但實(shí)際推導(dǎo)錯(cuò)誤。這類問(wèn)題在學(xué)習(xí)場(chǎng)景中尤為關(guān)鍵,相較于答案本身,推理過(guò)程的準(zhǔn)確性更直接影響學(xué)生對(duì)知識(shí)的理解與掌握。
針對(duì)這一問(wèn)題,傳音TEX AI中心與中山大學(xué)、MBZUAI團(tuán)隊(duì)合作,開(kāi)發(fā)了CARE(Contrastive Anchored REflection)技術(shù),從訓(xùn)練機(jī)制上對(duì)傳統(tǒng)路徑進(jìn)行了優(yōu)化。不同于僅以“結(jié)果對(duì)錯(cuò)”作為反饋信號(hào)的方式,CARE技術(shù)將關(guān)注點(diǎn)前移到推理過(guò)程本身,重點(diǎn)引入“高質(zhì)量錯(cuò)誤樣本”——即那些接近正確但存在關(guān)鍵步驟偏差的解題路徑。通過(guò)將這類樣本與標(biāo)準(zhǔn)解法進(jìn)行對(duì)比分析,并結(jié)合反思式重推理機(jī)制,模型能夠識(shí)別具體錯(cuò)誤環(huán)節(jié),并完成自我修正,從而形成更穩(wěn)定、連貫的推理能力。在引入反思機(jī)制后,模型對(duì)復(fù)雜問(wèn)題的二次推理成功率由約10%–19%提升至76.6%,有效增強(qiáng)了面對(duì)復(fù)雜題目時(shí)的穩(wěn)定性。
此外,CARE技術(shù)還引入“救援機(jī)制”:即使多次嘗試均未得到正確結(jié)果,系統(tǒng)仍會(huì)從已有錯(cuò)誤路徑中篩選出“相對(duì)最優(yōu)解”,作為進(jìn)一步學(xué)習(xí)的起點(diǎn),使模型在復(fù)雜問(wèn)題下仍能持續(xù)優(yōu)化推理能力。
在實(shí)際效果上,該方法顯著提升了模型的解題質(zhì)量。在MathVista(圖像數(shù)學(xué)推理)測(cè)試中,CARE準(zhǔn)確率比傳統(tǒng)方法的68.9%高13.2個(gè)百分點(diǎn),提升至82.1%;在MMMU-Pro(多學(xué)科綜合推理)測(cè)試中,CARE將準(zhǔn)確率從36.4%提升至46.7%。整體來(lái)看,CARE 比傳統(tǒng)方法平均提升 4.6 個(gè)百分點(diǎn)。
目前,該技術(shù)已進(jìn)入產(chǎn)品化階段,并逐步應(yīng)用于傳音手機(jī)智能助手中?;贑ARE優(yōu)化后的能力,傳音手機(jī)智能助手拍照解題功能在輸出結(jié)果時(shí)不僅能夠提供答案,還能呈現(xiàn)更清晰、結(jié)構(gòu)更完整的解題步驟,在面對(duì)多步驟推導(dǎo)問(wèn)題時(shí)也更不容易出現(xiàn)邏輯中斷或錯(cuò)誤累積。這種“過(guò)程可解釋”的能力,使AI從單純的解題工具,進(jìn)一步向“可輔助理解”的學(xué)習(xí)工具演進(jìn)。

拍照解題是傳音在 AI 教育應(yīng)用上的重要方向。在非洲、南亞等地區(qū),教育資源相對(duì)稀缺,部分家庭在課后輔導(dǎo)方面仍面臨一定困難。傳音推出的拍照解題功能為學(xué)生提供即時(shí)的解題思路與步驟解析,在一定程度上彌補(bǔ)學(xué)習(xí)支持資源的不足,幫助用戶更高效地理解知識(shí)點(diǎn),提升學(xué)習(xí)效率,讓前沿科技真正服務(wù)于每個(gè)人的生活。
隨著AI技術(shù)持續(xù)向真實(shí)場(chǎng)景滲透,AI已經(jīng)成為理解用戶需求、創(chuàng)造新體驗(yàn)的重要工具。傳音積極將 AI 能力深度融入社交、出行、健康、教育等高頻場(chǎng)景,讓技術(shù)從“可用” 變?yōu)椤罢鎸?shí)可感”,實(shí)現(xiàn)用戶的體驗(yàn)升級(jí)。此次聯(lián)合研究成果的落地,也為AI在教育場(chǎng)景中的進(jìn)一步應(yīng)用提供了新的技術(shù)路徑與實(shí)踐基礎(chǔ)。通過(guò)持續(xù)推進(jìn)以用戶需求為導(dǎo)向的技術(shù)創(chuàng)新,并深化與高校的協(xié)同研發(fā),傳音正不斷將前沿AI能力轉(zhuǎn)化為可落地的產(chǎn)品體驗(yàn),讓更多用戶能夠享受到AI帶來(lái)的便利。
-
AI
+關(guān)注
關(guān)注
91文章
40642瀏覽量
302301 -
傳音
+關(guān)注
關(guān)注
0文章
88瀏覽量
6602 -
大模型
+關(guān)注
關(guān)注
2文章
3719瀏覽量
5250
原文標(biāo)題:AI拍照解題技術(shù)新突破,傳音相關(guān)研究成果入選計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2026
文章出處:【微信號(hào):TranssionHoldings,微信公眾號(hào):傳音控股】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
奕行智能論文入選國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)頂級(jí)會(huì)議 ISCA 2026
地平線11篇論文強(qiáng)勢(shì)入選CVPR 2026
Nullmax研發(fā)團(tuán)隊(duì)靜態(tài)元素檢測(cè)和拓?fù)渫评硇?b class='flag-5'>成果入選CVPR 2026
思特威于ISSCC 2026發(fā)表論文研究成果
西井科技攜手同濟(jì)大學(xué) 三篇AI研究成果入選頂會(huì)ICLR 2026
光庫(kù)科技創(chuàng)新成果亮相APE 2026亞洲光電博覽會(huì)
普華基礎(chǔ)軟件開(kāi)源小滿入選2025中國(guó)汽車ESG案例研究成果
時(shí)識(shí)科技聯(lián)合創(chuàng)新成果SpikeRAM芯片入選ISSCC 2026
上海計(jì)算機(jī)視覺(jué)企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技
奧比中光3D視覺(jué)技術(shù)賦能IROS 2025研究成果
易控智駕榮獲計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2025認(rèn)可
Nullmax端到端自動(dòng)駕駛最新研究成果入選ICCV 2025
理想汽車八篇論文入選ICCV 2025
傳音多媒體團(tuán)隊(duì)攬獲CVPR NTIRE 2025兩項(xiàng)挑戰(zhàn)賽冠亞軍
傳音相關(guān)研究成果入選計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2026
評(píng)論