91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像捕獲是AI中最難的問題之一

倩倩 ? 來(lái)源:新經(jīng)網(wǎng) ? 作者:新經(jīng)網(wǎng) ? 2020-10-15 14:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

長(zhǎng)期以來(lái),AI的目標(biāo)就是準(zhǔn)確地描述圖像,而不僅僅是像笨拙的機(jī)器人。谷歌在2016年表示,其人工智能可以為人類提供幾乎與人類一樣的字幕圖像,準(zhǔn)確度達(dá)到94%?,F(xiàn)在,微軟表示,它走得更遠(yuǎn):它的研究人員建立了一個(gè)AI系統(tǒng),甚至比人類更準(zhǔn)確-以至于現(xiàn)在坐上了榜首的nocaps圖像字幕標(biāo)桿。微軟聲稱其自2015年以來(lái)一直使用的圖像字幕模型要好兩倍。

盡管這本身就是一個(gè)顯著的里程碑,但微軟不僅僅是將這項(xiàng)技術(shù)保留在自己手中。現(xiàn)在,它作為Azure認(rèn)知服務(wù)的一部分提供了新的字幕模型,因此任何開發(fā)人員都可以將其引入他們的應(yīng)用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和視障用戶的Microsoft應(yīng)用程序,可以描述周圍的世界。今年下半年,字幕模型還將改善您在PowerPoint中針對(duì)Web,Windows和Mac的演示文稿。它還會(huì)在桌面平臺(tái)的Word和Outlook中彈出。

Azure AI的CVP Eric Boyd在接受Engadget采訪時(shí)說(shuō):“圖像捕獲是AI中最難的問題之一。它不僅代表理解場(chǎng)景中的對(duì)象,還包括它們之間的交互方式,以及如何描述它們?!本?xì)的字幕技術(shù)可以為每個(gè)用戶提供幫助:它使在搜索引擎中查找所需圖像變得更加容易;對(duì)于視障用戶,它可以使瀏覽網(wǎng)絡(luò)和軟件變得更加出色。

看到公司吹捧他們的AI研究創(chuàng)新并不少見,但是將這些發(fā)現(xiàn)迅速部署到運(yùn)輸產(chǎn)品中卻很少見。Azure AI認(rèn)知服務(wù)的CTO Huang Xuedong出于對(duì)用戶的潛在好處,推動(dòng)將其迅速集成到Azure中。他的團(tuán)隊(duì)使用標(biāo)記有特定關(guān)鍵字的圖像對(duì)模型進(jìn)行了訓(xùn)練,這有助于使它成為大多數(shù)AI框架所沒有的視覺語(yǔ)言。通常,這些類型的模型是使用圖像和完整標(biāo)題訓(xùn)練的,這使得模型更難于學(xué)習(xí)特定對(duì)象的交互方式。

“視覺詞匯預(yù)訓(xùn)練本質(zhì)上是訓(xùn)練系統(tǒng)所需的教育;我們正在嘗試教育這種運(yùn)動(dòng)記憶,”黃在博客文章中說(shuō)。這就是這種新模型在nocaps基準(zhǔn)測(cè)試中的優(yōu)勢(shì),該基準(zhǔn)測(cè)試側(cè)重于確定AI可以如何為字幕創(chuàng)建字幕,這些字幕從未見過。

但是,盡管要打破基準(zhǔn)很重要,但微軟新模型的真正考驗(yàn)將是它在現(xiàn)實(shí)世界中的功能。據(jù)博伊德說(shuō),Seeing AI開發(fā)人員Saqib Shaik也在自己的盲人手中推動(dòng)了Microsoft的更大可訪問性,他說(shuō)這是對(duì)他們先前產(chǎn)品的巨大改進(jìn)。既然微軟已經(jīng)設(shè)定了一個(gè)新的里程碑,那么有趣的是,看看來(lái)自Google和其他研究人員的競(jìng)爭(zhēng)模型也將如何競(jìng)爭(zhēng)。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107863
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31079

    瀏覽量

    222270
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301436
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NORDIC AI的好處

    提升能效,適合音頻、圖像和高采樣率傳感器等更重的 AI 負(fù)載。[Axon NPU 技術(shù)頁(yè)] 模型更小、更快、更省電 Neuton 模型相較 TensorFlow Lite:* 內(nèi)存占用可小 10
    發(fā)表于 01-31 23:16

    格科微電子推出1200萬(wàn)像素AI眼鏡圖像傳感器GC12C1

    AI眼鏡市場(chǎng)正在迎來(lái)第輪爆發(fā)。Sigmaintell數(shù)據(jù)顯示,2025年全球AI智能眼鏡出貨量同比增長(zhǎng)預(yù)計(jì)超過110%?!敖夥烹p手”拍照與錄像是AI眼鏡最獨(dú)特的體驗(yàn)
    的頭像 發(fā)表于 01-30 09:11 ?1798次閱讀

    瑞芯微SOC智能視覺AI處理器

    : 支持4K@60fps H.265/H.264解碼,以及1080p@60fps編碼。豐富接口: 這是其核心優(yōu)勢(shì)之一,支持PCIe 2.1, SATA 3.0, USB 3.0, 雙千兆以太網(wǎng)等,非常適合
    發(fā)表于 12-19 13:44

    當(dāng)銷冠變成AI員工:深度智聯(lián)如何重構(gòu)地產(chǎn)生產(chǎn)力?

    AI落地最難的行業(yè),正被數(shù)字員工悄悄改造
    的頭像 發(fā)表于 12-18 22:02 ?7241次閱讀
    當(dāng)銷冠變成<b class='flag-5'>AI</b>員工:深度智聯(lián)如何重構(gòu)地產(chǎn)生產(chǎn)力?

    【飛凌OK-MX9596-C開發(fā)板試用】③云端AI拍照識(shí)別

    【飛凌OK-MX9596-C開發(fā)板試用】②體驗(yàn)WIFI、藍(lán)牙、音頻、視頻,為AI應(yīng)用打下基礎(chǔ) - 飛凌嵌入式 - 電子技術(shù)論壇 - 廣受歡迎的專業(yè)電子論壇! 在上帖子中,我們測(cè)試了攝像頭拍照
    發(fā)表于 11-01 22:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    AI的應(yīng)用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對(duì)話功能,還包括生成圖像、視頻、語(yǔ)音和程序代碼等功能。 竟然連代碼都可以生成,會(huì)取代程序員
    發(fā)表于 09-12 16:07

    【Sipeed MaixCAM Pro開發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    能夠有效捕捉AI生成圖像與真實(shí)手繪掃描圖像在紋理、筆觸、光影、全局致性等方面的細(xì)微差異。 邊緣端部署:將模型量化、編譯,最終高效運(yùn)行在算力有限的MaixCAM-Pro開發(fā)板上。 實(shí)時(shí)
    發(fā)表于 08-21 13:59

    AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?

    芯片設(shè)計(jì)為例,從最初的架構(gòu)選型,到算法適配、性能優(yōu)化,每個(gè)環(huán)節(jié)都考驗(yàn)著工程師的專業(yè)素養(yǎng)。在設(shè)計(jì)款面向智能安防領(lǐng)域的 AI 芯片時(shí),需要深入研究安防場(chǎng)景下圖像識(shí)別算法的特點(diǎn),針對(duì)性地優(yōu)化芯片架構(gòu),提升
    發(fā)表于 08-19 08:58

    NVIDIA RTX AI加速FLUX.1 Kontext系列圖像模型

    Black Forest Labs,作為全球頂尖 AI 研究實(shí)驗(yàn)室之一,為圖像生成領(lǐng)域帶來(lái)顛覆性變革。
    的頭像 發(fā)表于 08-05 16:27 ?1231次閱讀
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>圖像</b>模型

    示波器波形捕獲率的定義和作用

    波形捕獲率(Waveform Capture Rate)是數(shù)字示波器的關(guān)鍵指標(biāo)之一,指單位時(shí)間內(nèi)示波器能夠捕獲并顯示波形的次數(shù),通常以“次/秒”或“幀/秒”為單位。其本質(zhì)是衡量示波器在單位時(shí)間內(nèi)對(duì)信號(hào)變化的響應(yīng)能力。
    的頭像 發(fā)表于 08-04 15:20 ?1506次閱讀

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語(yǔ)音視覺識(shí)別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無(wú)需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)智能功能的特性,在些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場(chǎng)景中,發(fā)揮著不可或缺的作用。本章基于CSK
    發(fā)表于 07-04 11:14

    CX3顯示RAW12圖像錯(cuò)誤的原因?

    我想通過CX3065從FPGA捕獲MIPI圖像,我可以切換4種分辨率并通過開始捕獲顯示圖像,但片刻之后,我的UVC_App顯示的圖像是錯(cuò)誤的
    發(fā)表于 05-16 07:49

    泰克MDO3052示波器波形捕獲率評(píng)測(cè)

    能力,為用戶提供選型參考。 、波形捕獲率的核心價(jià)值與技術(shù)原理 波形捕獲率是示波器在單位時(shí)間內(nèi)捕獲并處理波形的次數(shù),直接影響異常信號(hào)的捕獲
    的頭像 發(fā)表于 04-02 11:49 ?977次閱讀
    泰克MDO3052示波器波形<b class='flag-5'>捕獲</b>率評(píng)測(cè)

    芯原推出新代集成AI的ISP9000圖像信號(hào)處理器,賦能智能視覺應(yīng)用

    芯原股份今日發(fā)布其ISP9000系列圖像信號(hào)處理器(ISP)IP——面向日益增長(zhǎng)的智能視覺應(yīng)用需求而打造的新AI ISP解決方案。ISP9000采用靈活的AI優(yōu)化架構(gòu),提供卓越的
    的頭像 發(fā)表于 04-02 10:43 ?918次閱讀

    中科億海微SoM模組——AI圖像推理解決方案

    隨著AI技術(shù)的快速發(fā)展,AI圖像推理作為種高效、智能的圖像處理技術(shù),已成為推動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型和智能化升級(jí)的關(guān)鍵。它憑借強(qiáng)大的
    的頭像 發(fā)表于 03-27 13:48 ?844次閱讀
    中科億海微SoM模組——<b class='flag-5'>AI</b><b class='flag-5'>圖像</b>推理解決方案