①谷歌表示,Veo 2在技術(shù)層面上的進步主要體現(xiàn)在物理引擎、攝影技術(shù)和人物表現(xiàn)力; ②在性能評估中,Veo 2超過了Sora Turbo、可靈、MiniMaX等模型; ③券商觀點,隨著AI視頻生成工具持續(xù)迭代,未來其向多種應(yīng)用場景的滲透有望加速。
《科創(chuàng)板日報》12月17日訊 Sora正式發(fā)布僅8天后,“谷歌版Sora”的2.0版本——Veo 2便正式發(fā)布。
據(jù)谷歌官網(wǎng)顯示,Veo 2可制作具有逼真動作和高質(zhì)量輸出的視頻。其最高分辨率可達4K,時長可達2分鐘以上。谷歌方面表示,Veo代表著高質(zhì)量視頻生成領(lǐng)域的重大進步。
除視頻清晰度有所長進外,Veo 2對物理世界和鏡頭控制的理解也是驚人的:
這段畫面的部分提示詞是:低角度跟蹤拍攝,18mm鏡頭。汽車漂移,留下光跡和輪胎煙霧。相機低速跟蹤,捕捉到光滑的橄欖綠色肌肉車接近拐角時的畫面。
該畫面部分提示詞為:特寫鏡頭聚焦于一位女DJ的臉部,她美麗、濃密的黑色卷發(fā)勾勒出她的五官。她閉上雙眼,沉浸在節(jié)奏中,嘴角掛著一絲微笑。當(dāng)她隨著節(jié)拍點頭和搖擺時,相機捕捉到了她頭部的細微動作。
從上述案例可見,Veo 2在真實世界還原以及Prompt指令遵循方面都有不錯的表現(xiàn)。而在谷歌官網(wǎng)發(fā)布的性能評估中,Veo 2同樣打敗了Sora Turbo、可靈、MiniMaX等一眾海內(nèi)外AI文生視頻大模型。
對此,谷歌總結(jié)稱,Veo 2在技術(shù)層面上的進步主要體現(xiàn)在三個方面。一是物理引擎的優(yōu)化,這決定了AI視頻模型對于現(xiàn)實世界物理規(guī)律的深入理解。二是攝影技術(shù)的集成,能夠輸出更為豐富的視覺效果。最后是人物表現(xiàn)力的提升,使人物動作和表情更具實感。
目前,Veo 2已被引入谷歌旗下視頻創(chuàng)作工具VedioFX。就在上周,OpenAI正式推出Sora Turbo,向美國及其他市場的ChatGPT付費用戶開放。新版工具Sora Turbo可以生成最長達20秒的視頻,并且可以提供這些視頻的多種變體。
與此同時,國內(nèi)文生視頻進展不斷。今年以來,國內(nèi)企業(yè)開始加速研發(fā)并迭代AI視頻生成產(chǎn)品,產(chǎn)品能力不斷提升:
今年6月,快手AI團隊發(fā)布可靈AI視頻生成大模型,可生成長達2分鐘、分辨率達1080p的視頻;
7月,智譜AI上線視頻生成產(chǎn)品智譜清影,并在11月進行升級,支持生成時長為10秒的4K超高清視頻;
8月,字節(jié)推出即夢AI一站式創(chuàng)作平臺,隨后在11月宣布即夢AI視頻模型S2.0Pro和P2.0Pro上線。
山西證券12月12日研報指出,隨著AI視頻生成工具持續(xù)迭代,未來其向多種應(yīng)用場景的滲透有望加速。一方面,應(yīng)用層建議重點關(guān)注創(chuàng)意、設(shè)計、教育等多模態(tài)特別是視頻生成強相關(guān)的領(lǐng)域;另一方面,視頻生成模型對算力需求較文本顯著提升,重點關(guān)注AI算力相關(guān)標(biāo)的。