91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

吉長江:影譜科技的視頻植入技術

LiveVideoStack ? 來源:未知 ? 作者:李倩 ? 2018-09-06 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文來自影譜科技創(chuàng)新研發(fā)中心負責人吉長江在8月舉行的LiveVideoStack Meet武漢站的分享,并由LiveVideoStack整理而成。吉長江詳細介紹了視頻植入的流程、典型方法、難點及技術趨勢,他認為,基于學習的視頻植入將是未來的發(fā)展趨勢。

大家好,我是來自北京影譜科技的吉長江,今天與大家分享的是影譜科技的視頻植入技術。

1. 背景介紹

或許此前大家對影譜科技還不是特別了解,但是隨著近期備受矚目的商湯對影譜科技的投資以及一同開拓大文娛市場等一系列活動,影譜科技逐漸走入大眾的視野。影譜科技在互聯(lián)網(wǎng)行業(yè)已耕耘數(shù)年,從開始參與的移動互聯(lián)網(wǎng)到現(xiàn)在專注于To B方向的視頻植入,我們致力于優(yōu)化原生廣告的用戶體驗,努力將其打造為一個良好的互聯(lián)網(wǎng)變現(xiàn)方式,這也堅定了我們沿著To B方向走下去的決心,接下來將與大家分享其中的相關技術重點。

2. 原生視頻廣告

我們認為網(wǎng)絡視頻生態(tài)環(huán)境可以簡單描述為一個三體系統(tǒng),不僅僅是一個視頻與觀眾之間形成的簡單關系,還應考慮在其中扮演重要角色的廣告。我們在設計廣告這一網(wǎng)絡視頻中最重要的變現(xiàn)手段時,必須要照顧到內(nèi)容制片方與視頻平臺方的變現(xiàn)訴求,還應照顧到用戶的觀看體驗。過于生硬的貼片廣告勢必會讓用戶的觀看視頻體驗大打折扣,因而如何實現(xiàn)良好的原生視頻廣告效果就變得非常重要。當然這里還有最重要的一點:我們通過視頻植入技術實現(xiàn)原生視頻廣告,可以有效降低廣告主的盲投風險,原生視頻廣告允許廣告主看到此視頻廣告的拍攝小樣或在此視頻上線后再決定是否投資,相對于傳統(tǒng)貼片廣告而言有效降低了招商階段的風險。

2.1 視頻植入技術

上圖是我們與芒果臺合作,借助視頻植入技術實現(xiàn)的原生廣告效果,大家可以看到通過此項技術我們可以將廣告比較完美地植入到視頻畫面中。也許有人會將其簡單地理解為P圖,但是在視頻當中實現(xiàn)此效果的復雜程度遠高于簡單的圖像處理,我們需要處理攝像機的運動軌跡、景深、遮擋關系等等,并非簡單的后期效果疊加。

2.1.1 視頻植入的定義

如果對視頻植入技術做出一個準確的定義,我認為視頻植入就是在視頻中自動化完成各類視覺元素融合的過程。首先“視覺元素”包括圖片、3D模型,甚至包括視頻中的視頻等等;此外,必須要做到的是精準而自然地“融合”,也就是必須要體現(xiàn)真實感。因此我們需要通過精準掌握攝像機的運動軌跡,妥善處理多個物體的遮擋關系,準確估算光照等操作,讓植入的視頻元素自然地出現(xiàn)在視頻畫面中而不顯得突兀生硬。為了實現(xiàn)以上效果,我們不僅要解決一系列技術細節(jié)問題,還需要將整個視頻植入過程完全自動化、標準化、流程化、規(guī)?;?/p>

通過以上描述大家可以看出,視頻植入是一個全新的視覺任務。與傳統(tǒng)的幾種視覺任務相比,視頻植入也許在技術與困難上有諸多相似之處,但總體上來說還是有很大差異。例如大家非常熟悉的強調(diào)實時性的AR,其植入對象是比較虛擬化的,用戶很容易分辨出植入對象并非真實的視頻元素;但對視頻植入廣告來說需要完成的是影視級別的植入,也就是需要實現(xiàn)讓植入廣告成為原生拍攝的真實元素,使觀眾無法準確分辨廣告的后期植入效果。達成這種以假亂真的效果需要的基礎技術與SFM、視覺SLAM技術有相通之處。

2.1.2 視頻植入過程

那么實現(xiàn)影視級別的視頻植入需要經(jīng)過哪些步驟呢?首先需要的是視頻鏡頭定位,而后進行包括平面檢測與攝像機運動深度恢復在內(nèi)的3D恢復;隨后經(jīng)過一系列的質(zhì)量評估后就可確定比較適合的植入廣告位置,接下來進行光照估計,完成最終的渲染。大家不難看出這是一個從解構到重構的過程,解構主要是運用計算機視覺技術從語義和幾何兩個角度進行處理;重構則運用CG技術實現(xiàn)光照估計與渲染視覺元素的處理。

1)語義解構

首先讓我們來看一下語義解構。所謂語義解構,換句話說就是視頻內(nèi)容的結構化。我們認為視頻本質(zhì)上是一個多模態(tài)信息,在此多模態(tài)信息中最重要的是圖像,也是觀眾最關心的,其次是字幕與聲音;如果從維度上考慮,視頻可分為人物、場景、行為三個維度。其中我們會特別關注的是人物,因為無論是視頻方還是廣告方都會格外重視人物的明星效應與其背后的商業(yè)價值,這也是我們確定的一個能夠良好實現(xiàn)人臉識別商業(yè)化落地的關鍵點。上圖是我們的AI處理系統(tǒng)識別視頻中明星的效果圖,通過基于人物的檢測追蹤和識別技術,我們可以檢測識別出影視劇、綜藝節(jié)目等視頻畫面中出現(xiàn)的大大小小的明星,準確標注他們出現(xiàn)的時間點與位置并將這些數(shù)據(jù)整理入庫。這得益于與自動化所和商湯的合作,現(xiàn)在這套系統(tǒng)已支持超過一千位明星的識別并可實現(xiàn)從正臉到側臉的檢測,同時我們自己也進行了包括場景優(yōu)化在內(nèi)的各項技術提升。

2)幾何解構

上圖的Demo是為了更好地說明如何進行幾何解構。所謂的幾何解構需要處理的是從2D畫面到3D場景的重建過程,大致過程是估算攝像機的運動并通過算法從2D點中生成3D點,從而實現(xiàn)3D的重建與人物的遮罩,為后續(xù)妥善處理視頻中元素的遮擋問題進行技術鋪墊。

3)3D重建的典型過程

對SLAM有所了解的同學可能比較熟悉接下來的內(nèi)容——3D重建的典型過程。之所以將其稱為一個典型的過程,是因為除此之外還有其它的解決方法,但目前來說這套方法是最成熟的,可被稱為“典型”,主要由以下步驟組成:首先進行的是特征點的計算和匹配;接下來,基于特征點匹配的結果系統(tǒng)會估算攝像機的位姿并跟蹤其運動得出其運動軌跡,之后經(jīng)過一系列優(yōu)化處理,生成稀疏點云或稠密深度圖。

4)面臨的問題

此典型過程與傳統(tǒng)方法一樣面臨著很多問題,使之無法處理所有鏡頭與畫面。比較典型的問題包括復雜的場景和遮擋,例如難以在一個人頭攢動的場景中實現(xiàn)準確的3D重建。而最重要的問題則是紋理缺乏,一旦目標缺乏紋理就無法從中準確提取特征點。特征點偵測在整條Pipeline中處于基礎位置,無法準確提取特征點意味著后面的所有處理都無法進行。之后會講到如何用深度學習技術解決此項問題,這也是現(xiàn)在的一個技術發(fā)展前沿。除了以上描述的問題,我們還面臨諸如攝像機運動軌跡退化(攝像機靜止或純旋轉)、非剛性(攝像機與目標同時運動)等不利于我們進行三維結構還原的情景與Pipeline過長造成魯棒性降低等問題,這就要求我們尋求更穩(wěn)定而有效的解決方案。

2.2 基于學習的方法

針對以上問題,我們提出的方案是基于學習的方法。大家可以思考這個問題:人類是如何通過視覺感知周圍環(huán)境的?有人會說是不是因為人類有兩只眼睛,可利用雙目進行三維場景的視覺重構?其實單目視覺也可實現(xiàn)類似效果,通過大量學習收獲的海量信息,即使一只眼睛的小黃人也可以理解三維世界,例如杯子與桌面的位置可通過杯子一般放在桌面上方的常識確定,人與車的相對位置可通過兩者的大小來確定等。這些經(jīng)驗知識指導人們還原與認知自己所處的環(huán)境,而我們?nèi)粘S^看的視頻都是基于單目攝像機拍攝形成的一個圖像幀序列,那么單目+學習能否還原3D結構?事實證明這個思路是正確的。

2.2.1 卷積神經(jīng)網(wǎng)絡——替代深度估計模塊

接下來先看一個比較典型的例子,上圖是用深度卷積網(wǎng)絡替代深度估計模塊進行深度偵測的示意圖。我們可以看到,整個網(wǎng)絡的結構類似于一個包括編碼器與解碼器在內(nèi)的自編碼器;首先我們輸入一個立體視覺的兩張圖片,通過深度網(wǎng)絡估算出相應深度圖。當然這里的兩張圖片并不隨機,圖片的采集有一定要求,我們可以在KITTI開源數(shù)據(jù)庫中得到采集照片需要的數(shù)據(jù)集;拍攝時用相對距離已知且固定,焦距相同的兩臺照相機同時對同一個場景進行拍攝,采集符合要求的照片并得到深度圖;成功輸出深度圖后,我們可根據(jù)此雙目系統(tǒng)的基礎數(shù)學公式:

D(x)=f*B/d(x)

利用深度圖估算并預測出原圖所展示的空間深度信息,產(chǎn)生的預測值與實際的真實值之間存在差異值;我們將這個所有像素的光度差異值作為損失函數(shù)進行基于WARP的反向傳播并借此訓練神經(jīng)網(wǎng)絡,經(jīng)過大量訓練就可得到這樣一個可對于單視圖進行深度估計的卷積神經(jīng)網(wǎng)絡。輸入一張圖片,此卷積神經(jīng)網(wǎng)絡就可生成一張我們所需要的深度圖,這樣采用深度學習技術完全替代傳統(tǒng)的深度估計的過程是比較典型的。

2.2.2 卷積神經(jīng)網(wǎng)絡——替代多個模塊

不僅如此,我們還可實現(xiàn)同時進行深度和攝像機運動的估計。此方法與之前提到的利用幾何原理與雙目相機模型的方法類似,但這里用來訓練CNN的素材是一段視頻,其原理是利用相鄰幀之間的微小差異進行反算,使用針孔相機模型公式:

可同時訓練兩個獨立的神經(jīng)網(wǎng)絡,分別用來輸出深度圖與估算攝像機的旋轉平移等運動。這與前一個神經(jīng)網(wǎng)絡的訓練類似,都是致力于實現(xiàn)無監(jiān)督的全自動化學習過程。對于視頻而言由于其幀間存在很多關聯(lián)信息,這些關聯(lián)信息可作為神經(jīng)網(wǎng)絡的學習數(shù)據(jù),因此我們可在這里實現(xiàn)無監(jiān)督學習。無監(jiān)督學習的好處在于節(jié)省了大量的高成本的人工標記工作。因此在視頻分析領域,無監(jiān)督學習會扮演著越來越重要的角色,值得大家去關注。當然這里并不是說傳統(tǒng)的有監(jiān)督學習一無是處,在諸多專業(yè)細分領域例如視頻觀眾識別等還需要依賴人工標注的有監(jiān)督學習。鑒于視頻幀間存在可以被利用的豐富信息,雖然與傳統(tǒng)圖像處理相比難度更大,但我們可以利用無監(jiān)督學習實現(xiàn)更高效的視頻處理效果。

2.2.3 2D語義分割結合點云

深度學習還能幫助我們做更多的事情。除了估算深度與攝像機運動,我們還可以利用語義分割的結果進行平面檢測。由于在植入廣告時我們會對墻面桌面等平面元素給予更多的關注,而如果只是從點云中簡單粗暴地進行擬合,其過程的處理復雜程度很高,效率十分低下。因此,可以結合語義信息用深度學習進行2D語義分割,將分割結果與3D重建的結果結合即可得到了一個含有語義信息的深度圖或點云,在此基礎上進行的平面檢測,其算法復雜程度會大大降低,準確度會顯著提高,這些就是深度學習帶給我們的便利。

2.2.4 深度學習助力幾何解構

深度學習在幾何解構方面的應用還有很多,其不僅能替換現(xiàn)有方法中的一個或多個模塊,也能在傳統(tǒng)幾何方法的基礎上加入語義信息。這里需要注意的是,單獨依靠深度學習的方法完成視頻植入的效果與傳統(tǒng)方法還是存在一定差距,不過這不妨礙我們將其作為未來的發(fā)展方向不斷探索。從之前的例子我們可以看出,盡管傳統(tǒng)方法依舊不可被替代,但深度學習的確有助于克服傳統(tǒng)方法的諸多不足,例如應對缺乏紋理的對象時傳統(tǒng)方法會明顯力不從心,而利用經(jīng)過訓練的深度神經(jīng)網(wǎng)絡進行深度估算與攝像機軌跡追蹤會明顯改善處理效果。

3. 展望未來

3.1 基于學習的視頻植入

從長遠來看,我認為基于無監(jiān)督訓練的深度學習處理視頻植入是一個不可否認的趨勢。隨著海量的學習與其背后數(shù)據(jù)的不斷積累,系統(tǒng)可在不更新訓練模型的條件下持續(xù)提高模型的識別能力,也就是我們常說的“學無止境”?!皩W無止境”意味著持續(xù)不斷地獲得新數(shù)據(jù)與提升能力,我想無論是對技術人員還是計算機網(wǎng)絡而言,這一點都是十分關鍵的。

3.2 智能影像生產(chǎn)

也許大家從我的分享中感受到了視頻植入的神奇,但視頻植入是一個針對特定領域的問題。我們往往關注的是如何將一個海報貼在墻上或把一個3D模型放在桌面上。如果我們將視頻植入技術發(fā)展到批量的智能影像生產(chǎn)則需要面臨更大的挑戰(zhàn),也就是借助技術實現(xiàn)更通用、精確、真實的視頻植入效果,才能收獲符合智能影像生產(chǎn)要求的產(chǎn)品。相信隨著深度學習的發(fā)展,我們期待的智能影像生產(chǎn)將獲得矚目的進步,這也是我們與用戶共同的目標。

隨著近年短視頻行業(yè)的蓬勃發(fā)展,除了關注長視頻領域,我們也越來越關注包括短視頻平臺、直播平臺在內(nèi)的短視頻領域。我們期待利用基于視頻植入技術的原生視頻廣告將廣告主的一些想法自然添加在直播畫面里的桌面或墻上并隨著攝像機的運動實現(xiàn)自然變化,這種后期植入式海報是我們的優(yōu)勢產(chǎn)品之一。我相信,借助科技的力量,利用場景的關聯(lián)性優(yōu)化廣告投放效果能讓廣告成為互聯(lián)網(wǎng)視頻的錦上之花。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視頻
    +關注

    關注

    6

    文章

    2005

    瀏覽量

    74956
  • 互聯(lián)網(wǎng)

    關注

    55

    文章

    11336

    瀏覽量

    109889

原文標題:吉長江:基于學習的視頻植入技術是未來趨勢

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    TFT-LCD殘問題分析及激光修復方法

    視覺體驗,還可能縮短顯示屏使用壽命,降低產(chǎn)品市場競爭力。傳統(tǒng)殘改善手段如軟件消、高溫老化等,僅能緩解輕微殘,對頑固性殘效果有限。激光修復技術
    的頭像 發(fā)表于 02-13 09:14 ?46次閱讀
    TFT-LCD殘<b class='flag-5'>影</b>問題分析及激光修復方法

    超連續(xù)激光器可以替換傳統(tǒng)的傳統(tǒng)寬燈源嗎?一文解析

    融合了激光的高亮度和寬光源的廣優(yōu)勢,正引領一場從基礎科研到工業(yè)檢測的光源技術革新。本文將系統(tǒng)解析超連續(xù)激光器的工作原理、主流技術路線及
    的頭像 發(fā)表于 01-21 17:23 ?569次閱讀
    超連續(xù)<b class='flag-5'>譜</b>激光器可以替換傳統(tǒng)的傳統(tǒng)寬<b class='flag-5'>譜</b>燈源嗎?一文解析

    亞氫能成為液氫和換氫技術聯(lián)盟成員單位

    佛瑞亞集團旗下佛亞(上海)氫能投資有限公司(下文簡稱佛亞氫能)正式成為液氫技術聯(lián)盟成員單位與換氫技術聯(lián)盟成員單位,標志著公司在中國氫能核心技術
    的頭像 發(fā)表于 11-28 10:28 ?396次閱讀

    ??低暸c遠網(wǎng)絡簽署戰(zhàn)略合作協(xié)議

    11月10日,上海遠網(wǎng)絡信息有限公司(以下簡稱“遠網(wǎng)絡”)與杭州??低晹?shù)字技術股份有限公司(以下簡稱“??低暋保┖炇饝?zhàn)略合作協(xié)議。
    的頭像 發(fā)表于 11-13 17:45 ?1306次閱讀

    長江委網(wǎng)信中心與大華股份達成戰(zhàn)略合作 共同推動數(shù)字孿生長江建設

    、人才培養(yǎng)、成果轉化等方面的愿景,共同開展智慧水利領域視頻綜合解決方案的創(chuàng)新研發(fā)與行業(yè)產(chǎn)品開發(fā),為數(shù)字孿生長江建設提供關鍵技術支撐與落地保障。 ? 長江委網(wǎng)信中心主任唐航、辦公室主任胡
    的頭像 發(fā)表于 11-04 09:22 ?831次閱讀
    <b class='flag-5'>長江</b>委網(wǎng)信中心與大華股份達成戰(zhàn)略合作 共同推動數(shù)字孿生<b class='flag-5'>長江</b>建設

    長江委網(wǎng)信中心與大華股份達成戰(zhàn)略合作

    近日,水利部長江水利委員會網(wǎng)絡與信息中心(以下簡稱“長江委網(wǎng)信中心”)與大華股份簽署戰(zhàn)略合作協(xié)議。雙方將圍繞長江流域治理與管理工作需求,達成科學研究、人才培養(yǎng)、成果轉化等方面的愿景,共同開展智慧水利領域
    的頭像 發(fā)表于 10-31 17:28 ?1955次閱讀

    京東11.11直播技術全面升級,立3D技術、JoyAI大模型重構沉浸式購物體驗

    隨著京東 11.11 大促的火熱進行,京東直播再度升級技術布局,以 “立 3D 技術”“JoyAI大模型”等創(chuàng)新技術,打破傳統(tǒng)直播邊界,為用戶帶來更具沉浸感、趣味性的購物體驗,引領直
    的頭像 發(fā)表于 10-27 14:58 ?622次閱讀

    景嘉微與大正元簽署戰(zhàn)略合作協(xié)議

    10月16日上午,長沙景嘉微電子股份有限公司(以下簡稱“景嘉微”)與長春大正元信息技術股份有限公司(以下簡稱“大正元”)正式簽署戰(zhàn)略合作協(xié)議。
    的頭像 發(fā)表于 10-18 11:42 ?1256次閱讀

    目INMO GO3新品發(fā)布,攜手螞蟻、騰訊應用寶、智等行業(yè)巨頭打造AI+AR生態(tài)

    產(chǎn)業(yè)生態(tài)平臺——目世界,攜手騰訊、螞蟻集團、智AI等行業(yè)巨頭共建原生內(nèi)容生態(tài),并宣布正式進軍線下渠道,聯(lián)手LOHO、依視路陸遜梯卡、亞洲眼鏡等品牌布局2000+體驗門店。從美學設計到智能交互,從AI功能到生態(tài)開放,目INM
    發(fā)表于 10-16 19:57 ?1448次閱讀
    <b class='flag-5'>影</b>目INMO GO3新品發(fā)布,攜手螞蟻、騰訊應用寶、智<b class='flag-5'>譜</b>等行業(yè)巨頭打造AI+AR生態(tài)

    商湯絕亮相汽車之家全球AI科技大會

    近日,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO、商湯絕CEO王曉剛出席大會,并發(fā)表《世界模型:智能駕駛范式演進新路標》主題演講,分享了“絕開悟”世界模型給智能駕駛帶來的技術
    的頭像 發(fā)表于 09-29 14:09 ?624次閱讀

    商湯絕亮相2025長安汽車科技生態(tài)大會

    9月5日-8日,商湯絕受邀參加2025世界智能產(chǎn)業(yè)博覽會「長安汽車科技生態(tài)大會」,作為長安汽車合作伙伴參與行業(yè)技術交流,現(xiàn)場展出絕端側多模態(tài)大模型、AiOS及New Member三款核心產(chǎn)品,深受同行伙伴好評。
    的頭像 發(fā)表于 09-10 16:33 ?1728次閱讀

    TFT液晶顯示屏為什么會顯示殘、如何解決

    :工業(yè)級屏幕雖然用料更好,但不同品牌和等級的屏之間仍有差異。低品質(zhì)的屏在材料和工藝上存在缺陷,抗殘能力天然較差。 類型:不同技術的液晶殘概率不同。例如,VA類面板的對比度高,但響應時間較慢,比IPS
    發(fā)表于 09-08 09:04

    MAX9265 HDCP比特多媒體串行鏈路串行器,帶有LVDS系統(tǒng)接口技術手冊

    MAX9265比特多媒體串行鏈路(GMSL)串行器具有LVDS系統(tǒng)接口和寬帶數(shù)字內(nèi)容保護(HDCP)加密,用于DVD和Blu-ray?視頻及音頻數(shù)據(jù)的內(nèi)容保護。串行器可配合任何HDCP GMSL解
    的頭像 發(fā)表于 05-28 16:12 ?1021次閱讀
    MAX9265 HDCP<b class='flag-5'>吉</b>比特多媒體串行鏈路串行器,帶有LVDS系統(tǒng)接口<b class='flag-5'>技術</b>手冊

    泰康與韜略科技達成戰(zhàn)略合作

    認證(電磁兼容方向)、自動化技術研發(fā)等領域展開深度合作,共同推動基因行業(yè)標準化進程,為臨床與科研客戶提供更安全、更可靠的解決方案。艾泰康聯(lián)合創(chuàng)始人王瑞超與韜略科技
    的頭像 發(fā)表于 05-09 11:33 ?2570次閱讀
    艾<b class='flag-5'>吉</b>泰康與韜略科技達成戰(zhàn)略合作

    技嘉科技蒞臨方工控參觀交流

    近日,國際主板領軍企業(yè)技嘉科技產(chǎn)品經(jīng)理高瑞懇、歐永強蒞臨方工控,雙方開展深度技術交流。
    的頭像 發(fā)表于 03-10 17:52 ?1039次閱讀