
馬年春晚,《賀花神》美輪美奐的畫面刷屏全網(wǎng)。緊隨其后,支撐這場(chǎng)視覺奇觀的Seedance 2.0模型開放API調(diào)用,價(jià)格一秒一塊錢。
時(shí)間倒回兩年前,AI視頻生成還是一個(gè)被認(rèn)為“中國完全做不出來”的賽道。OpenAI的Sora在2024年初橫空出世,一支“女生走在東京街頭”的60秒視頻,畫面逼真程度堪比實(shí)拍,而彼時(shí)的國產(chǎn)視頻模型,大多只能生成5—12秒的畫面,表情僵硬、手指穿模、物理穿幫都是常態(tài),效果一眼假。
Sora如同一記耳光,把中國AI行業(yè)抽懵了。面對(duì)技術(shù)威懾,中國AI產(chǎn)業(yè)不能坐以待斃,開始像小說《三體》中人類面對(duì)智子的技術(shù)封鎖一樣,進(jìn)入各顯神通的“面壁計(jì)劃”,最終完成了從Sora驚恐到即夢(mèng)反殺的逆襲,把畫面質(zhì)量卷上天際,生成價(jià)格卷到地板。這段歷史,值得在當(dāng)下AI視頻生成全面爆發(fā)的時(shí)間節(jié)點(diǎn)回顧一下。

2024年初Sora的出現(xiàn),直接讓中國AI行業(yè)陷入了至暗時(shí)刻。那段時(shí)間,我的朋友圈里滿是對(duì)中國視頻生成技術(shù)技不如人的吐槽。
大家的恨鐵不成鋼,既來自肉眼可見的技術(shù)鴻溝,也有腦補(bǔ)的災(zāi)難想象。
視頻生成比文本生成要復(fù)雜得多,需要同時(shí)解決空間維度的物體形態(tài)一致性、時(shí)間維度的運(yùn)動(dòng)連貫性、物理規(guī)律的準(zhǔn)確模擬,還有音畫同步等一系列難題。與Sora一對(duì)比,國產(chǎn)模型輸?shù)煤翢o還手之力。

比落后更可怕的,是這一技術(shù)壁壘看似無法逾越。
彼時(shí)全球主流的視頻生成模型,是MidJourney、Runway、DALL·E這些海外產(chǎn)品。國內(nèi)既沒有Sora的DiT架構(gòu)那樣的核心技術(shù)壁壘,也沒有充足的英偉達(dá)頂級(jí)顯卡。行業(yè)于是悲觀地推演:中國與海外的技術(shù)代差根本無法追趕,中國做不出自己的視頻大模型。
總結(jié)一下Sora對(duì)中國AI帶來的沖擊,是多方面的。此前,國內(nèi)AI產(chǎn)業(yè)的發(fā)展多依托應(yīng)用層創(chuàng)新,而視頻生成屬于硬核技術(shù)賽道,沒有應(yīng)用層的捷徑可走,一下子讓行業(yè)的短板被無限放大。
而且,算力卡脖子、高質(zhì)量視頻訓(xùn)練數(shù)據(jù)匱乏等先天條件的差距,也讓行業(yè)產(chǎn)生了追趕無望的情緒。國內(nèi)從業(yè)者陷入了一場(chǎng)關(guān)于“要不要追趕Sora”的路線之爭(zhēng),多數(shù)企業(yè)不愿意第一個(gè)吃螃蟹,更讓逆襲顯得遙遙無期。
幸好,人類面對(duì)外部威脅,從來不會(huì)坐以待斃。中國AI產(chǎn)學(xué)各界很快行動(dòng)起來,化身破解Sora危機(jī)的面壁者。

在Sora的技術(shù)威懾下,學(xué)術(shù)界、大廠、垂類企業(yè),走出了三條不同的突圍路徑,逐步縮小與Sora的差距。
首先出發(fā)的是學(xué)術(shù)派。
一個(gè)極具反差的現(xiàn)象是:類ChatGPT的國產(chǎn)大語言模型破局,由百度、阿里等企業(yè)引領(lǐng),而類Sora的國產(chǎn)視頻生成模型突破,最先動(dòng)起來的卻是學(xué)術(shù)界。
Sora發(fā)布的次日,清華大學(xué)就火速申請(qǐng)了文生視頻相關(guān)專利,率先完成技術(shù)卡位。此后,清華聯(lián)合生數(shù)科技,研發(fā)出原創(chuàng)的Diffusion與Transformer融合架構(gòu),一舉打造出中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性的視頻大模型,成為國內(nèi)視頻生成技術(shù)的開山之作。
學(xué)術(shù)界面對(duì)Sora威脅的積極主動(dòng)對(duì)標(biāo)態(tài)度,并非偶然。
一方面,類Sora模型的核心在于架構(gòu)創(chuàng)新,高校和科研機(jī)構(gòu)沒有企業(yè)的商業(yè)包袱,能夠聚焦底層技術(shù),進(jìn)行原創(chuàng)性的探索。此外,視頻生成模型的研發(fā)是算力吞金獸,單靠企業(yè)的投入難以支撐長期的試錯(cuò),而學(xué)術(shù)界能依托政策傾斜、政府算力補(bǔ)貼和科研基金,進(jìn)行高風(fēng)險(xiǎn)、高投入的硬核研發(fā)。2024年底,我造訪長春人工智能算力中心,該中心總規(guī)模300P的智能算力,其中200多P都被北京某高校的Sora對(duì)標(biāo)項(xiàng)目占用,來自全棧國產(chǎn)化的算力支持、長春市的算力補(bǔ)貼政策,讓科研團(tuán)隊(duì)有了復(fù)現(xiàn)Sora的底氣。
緊接著出擊的,是大廠中的數(shù)據(jù)派,快手可靈、字節(jié)即夢(mèng)相繼上線。
2024年3月,即夢(mèng)AI依托字節(jié)跳動(dòng)自研Seedream和Seedance模型,開啟內(nèi)測(cè)。2024年6月,快手自主研發(fā)的視頻生成大模型可靈上線,技術(shù)路線對(duì)標(biāo)Sora,支持生成1080p分辨率、最長2分鐘的視頻。
很多人會(huì)疑惑,為什么是即夢(mèng)和可靈?答案是它們背靠頭部視頻內(nèi)容平臺(tái),手握數(shù)十億級(jí)涵蓋生活、電商、劇情等各類場(chǎng)景的短視頻語料,為模型研發(fā)提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。模型推出后,還能借助視頻內(nèi)容生態(tài)啟動(dòng)數(shù)據(jù)飛輪,快速迭代。比如可靈在快影App開放測(cè)試入口,吸引平臺(tái)內(nèi)數(shù)百萬創(chuàng)作者參與使用,這些源于真實(shí)創(chuàng)作場(chǎng)景的用戶生成內(nèi)容,又反哺模型迭代。

數(shù)據(jù)派大廠,走出了一條高效的技術(shù)追趕之路,那其他企業(yè)呢?
并非所有企業(yè)都選擇全面對(duì)標(biāo)Sora,昆侖萬維、阿里等企業(yè)走出了第三條路:聚焦垂類場(chǎng)景,打造差異化優(yōu)勢(shì)。
Sora的通用型視頻生成能力固然強(qiáng)大,但在實(shí)際使用中,用戶的需求更多是精準(zhǔn)解決某一領(lǐng)域的問題。于是,這些企業(yè)放棄了對(duì)通用型模型的盲目追趕,轉(zhuǎn)而針對(duì)具體的業(yè)務(wù)場(chǎng)景,解決用戶的實(shí)際痛點(diǎn)。
比如昆侖萬維的天工大模型,將目光鎖定在AI短劇制作場(chǎng)景。短劇制作對(duì)角色表情、道具還原、劇情連貫性要求極高,而此前的通用模型往往存在表情僵硬、道具失真的問題。天工大模型針對(duì)性地攻克了這些痛點(diǎn),在角色表情生成、道具一致性、視頻生成時(shí)長和控制性上做出優(yōu)化,更適配短劇、電商廣告等創(chuàng)作者的需求。

阿里則將重心放在生態(tài)構(gòu)建與技術(shù)開源上,背靠阿里研究院和阿里云的算力支持,打造出通義萬相、Qwen-Image-2.0等視頻生成模型,并選擇將核心技術(shù)開源。開源不僅吸引了海量開發(fā)者參與模型的優(yōu)化,更讓阿里的AI視頻能力快速嵌入到釘釘?shù)萐aaS工具、淘寶等電商服務(wù)中。
三支大軍的并行探索,最終徹底扭轉(zhuǎn)了外界對(duì)中國AI視頻生成的悲觀預(yù)期。然而,比技術(shù)更大的挑戰(zhàn),才剛剛到來。

技術(shù)搞定了,還得算經(jīng)濟(jì)賬。與Sora、runway這類海外視頻模型不同,中國AI視頻生成的商業(yè)化探索,從一開始就面臨著更嚴(yán)峻的挑戰(zhàn)。
一方面,類Sora模型沒有成熟的商業(yè)模式可借鑒,海外市場(chǎng)僅能依靠售賣API、按token計(jì)費(fèi)的單一方式變現(xiàn);另一方面,國內(nèi)用戶的付費(fèi)習(xí)慣尚未完全養(yǎng)成,企業(yè)用戶和個(gè)人用戶的付費(fèi)意愿都低于海外。也就是說,前面打造出來的那些視頻生成模型,每一分投入都是在超前燒錢。
在這樣的背景下,倒逼中國企業(yè)探索AI視頻生成技術(shù)的低成本落地辦法。
算力,是AI視頻生成的核心成本,也是此前中國企業(yè)的最大痛點(diǎn)。面臨顯卡供應(yīng)限制,國內(nèi)企業(yè)不得不另辟蹊徑,從模型架構(gòu)和硬件適配兩個(gè)維度進(jìn)行雙重優(yōu)化。
生數(shù)科技的Vidu模型打造了原創(chuàng)的U-ViT端到端高效生成架構(gòu),結(jié)合國產(chǎn)芯片的特性進(jìn)行優(yōu)化,用更少的算卡達(dá)到海外模型的同等效果。

商湯的Seko 2.0完成多款國產(chǎn)芯片適配后,單集短劇的算力成本直接減半。原本生成一條AI廣告需要500元的算力消耗,適配國產(chǎn)芯片后,幾十塊錢就能搞定。
如果說算力優(yōu)化是節(jié)流,商業(yè)模式的創(chuàng)新就是開源。
面對(duì)國內(nèi)用戶“免費(fèi)一停,感情歸零”的現(xiàn)狀,中國企業(yè)在海外的訂閱費(fèi)、token包等模式之外,還探索出了諸如平臺(tái)與商家按廣告收益分成、與創(chuàng)作者按內(nèi)容播放量分賬、為企業(yè)提供定制化的視頻生成服務(wù)等新的變現(xiàn)模式。
比如創(chuàng)作者用快手可靈生成電商廣告短視頻,掛載平臺(tái)內(nèi)商家的商品鏈接,平臺(tái)會(huì)根據(jù)視頻的播放量、商品點(diǎn)擊轉(zhuǎn)化率,與創(chuàng)作者進(jìn)行廣告收益分成;紅果短劇與制作商合作,利用seedance模型來降低制作成本,再根據(jù)AI漫劇的播放量與制作商進(jìn)行分賬。
可以說,中國電商、短劇、直播等豐富的互聯(lián)網(wǎng)場(chǎng)景,是AI視頻生成技術(shù)走出商業(yè)迷霧的關(guān)鍵。通過把技術(shù)價(jià)值與商業(yè)收益相綁定,讓國產(chǎn)AI視頻生成模型擺脫了只燒錢、難盈利的困境,在算力消耗與商業(yè)回報(bào)的極限拉扯中,逐步探索著可持續(xù)的商業(yè)化路徑。

2025年,是中國AI視頻生成的破圈元年,廣泛走進(jìn)了大眾生活。
曾經(jīng)需要下載專門APP、訪問網(wǎng)頁、輸入復(fù)雜指令prompt才能使用的AI視頻工具,在抖音、剪映等國民級(jí)應(yīng)用中,實(shí)現(xiàn)了“拍同款”式的傻瓜操作。春節(jié)期間,個(gè)性化的AI拜年視頻,成了潮流人士新年祝福的新方式。馬年春晚,則是AI視頻破圈的最高潮,字節(jié)跳動(dòng)的Seedance 2.0模型參與《賀花神》等舞臺(tái)視覺,讓億萬觀眾直觀感受到了中國AI視頻生成的效果。

但吸引全民玩起來的同時(shí),一系列AI視頻生成的暗面,也隨之浮現(xiàn)。
普通用戶最大的煩惱,就是排隊(duì)。春節(jié)高峰期,生成一個(gè)10秒的AI視頻,最長需要等待12小時(shí)。如今恢復(fù)到日常使用,生成一段短視頻的排隊(duì)時(shí)間也需要4小時(shí)以上。這糟糕的使用體驗(yàn),讓很多用戶不得不為愛充值,成為模型的付費(fèi)用戶,但即使花了錢,排隊(duì)問題也并沒有得到徹底解決。
用戶苦于排隊(duì)的現(xiàn)象背后,是仍然未解的商業(yè)魔咒。
隨著AI視頻生成技術(shù)的破圈,大量新用戶涌入,平臺(tái)的資源消耗也指數(shù)級(jí)增加。而AI視頻生成的算力成本,遠(yuǎn)高于普通互聯(lián)網(wǎng)產(chǎn)品,所以無法像以前支撐免費(fèi)社交、免費(fèi)視頻那樣,長期承擔(dān)免費(fèi)用戶的算力成本。而這些新進(jìn)入的免費(fèi)用戶,到底是爽一把就走,還是能轉(zhuǎn)化為長期付費(fèi)用戶,還是未知數(shù)。沒有確定性的商業(yè)回報(bào),AI視頻平臺(tái)也就沒有動(dòng)力劃撥更多算力資源,而糟糕的排隊(duì)等待體驗(yàn),又會(huì)進(jìn)一步勸退用戶的付費(fèi)意愿。
何時(shí)能打破這個(gè)C端的商業(yè)化僵局,猶未可知,B端的問題就迎面而來。
春節(jié)過后,一些回歸橫店的演員們發(fā)現(xiàn),曾經(jīng)忙碌的片場(chǎng)冷冷清清,未來兩個(gè)月都沒有新劇開拍。
一問才知道,在短劇領(lǐng)域,大制作公司紛紛成立AI組,將核心制作環(huán)節(jié)交給AI,小公司則直接全面轉(zhuǎn)成AI制作,不再招聘真人演員。春晚上的技術(shù)歡呼聲尚未散去,AI對(duì)影視行業(yè)的絞殺已經(jīng)開始。
以前,短劇平臺(tái)會(huì)為中小承制方提供劇本庫、給予保底激勵(lì),但年后,這些平臺(tái)開始AI化轉(zhuǎn)型,不再提供新的劇本資源,并加大對(duì)AI短劇制作的投入。紅果平臺(tái)還推出了針對(duì)性的補(bǔ)償與激勵(lì)政策,對(duì)選擇使用AI技術(shù)進(jìn)行短劇制作的合作方,按AI劇本等級(jí)給予不同額度的保底補(bǔ)償,其中S+檔AI劇本保底可達(dá)8萬元。
AI吞噬短劇,證明了國產(chǎn)視頻生成模型的能力之強(qiáng),不再需要低效抽卡,對(duì)于群演、基礎(chǔ)剪輯、簡(jiǎn)單文案撰寫等重復(fù)性工作,已經(jīng)可以靠AI進(jìn)入工業(yè)化流水線式生產(chǎn),顯著提效。但這些崗位往往也吸納了大量的就業(yè)人口。一旦從業(yè)者不能與行業(yè)一起轉(zhuǎn)型,就會(huì)產(chǎn)生對(duì)AI技術(shù)的不滿與抵觸。
全民當(dāng)導(dǎo)演是技術(shù)破圈的起點(diǎn),但商業(yè)化瓶頸仍然存在,社會(huì)層面的連鎖反應(yīng)才剛剛拉開序幕。這些都是中國AI視頻生成領(lǐng)域?qū)㈤L期面臨的課題。

回頭看從Sora驚恐到即夢(mèng)反殺的歷程,中國AI產(chǎn)學(xué)各界的從業(yè)者,在技術(shù)封鎖、算力卡脖子、商業(yè)模式空白的多重困境中,各顯神通,打破小院高墻。
當(dāng)然,這條路遠(yuǎn)沒有走到終點(diǎn)。排隊(duì)的問題需要解決,模型的BUG需要修復(fù),AI與真人演員的共存需要探索,商業(yè)化模式需要完善……
但正如《三體》中所說:“給歲月以文明,而不是給文明以歲月。”科技的發(fā)展,本就是在解決問題中前進(jìn)的過程。而中國科技最擅長的,就是在困境中突圍,在解決問題中成長。
有理由相信,那些曾經(jīng)困擾、如今仍在考驗(yàn)中國AI視頻生成技術(shù)的難題,終將被逐一破解,正如我們經(jīng)歷過的每一次危機(jī)時(shí)刻那樣。

審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
91文章
39911瀏覽量
301543 -
Sora
+關(guān)注
關(guān)注
0文章
87瀏覽量
810
發(fā)布評(píng)論請(qǐng)先 登錄
消費(fèi)電子EMC整改:助從被動(dòng)修復(fù)到主動(dòng)防御的進(jìn)階之路
從設(shè)計(jì)到部署:AI即服務(wù)平臺(tái)開發(fā)深度剖析
云天勵(lì)飛如何助力中國AI芯片突圍
OpenAI Sora 2模型上線微軟Azure AI Foundry國際版
看點(diǎn):谷歌Veo 3.1迎來重大更新硬剛Sora 2 12英寸硅片國產(chǎn)龍頭西安奕材今日申購
全球首個(gè)動(dòng)漫專屬AI視頻生成平臺(tái)Animon,國內(nèi)版"萌動(dòng)AI"正式發(fā)布
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件
從生成式AI到代理式AI:半導(dǎo)體技術(shù)賦能下一波創(chuàng)新浪潮
一種基于擴(kuò)散模型的視頻生成框架RoboTransfer
4K、多模態(tài)、長視頻:AI視頻生成的下一個(gè)戰(zhàn)場(chǎng),誰在領(lǐng)跑?
AKOOL發(fā)布全球首款實(shí)時(shí)攝像頭
從Gartner報(bào)告看Atlassian在生成式AI領(lǐng)域的創(chuàng)新路徑與實(shí)踐價(jià)值
從Sora驚恐到即夢(mèng)反殺,中國的AI視頻生成之路
評(píng)論