參與過電影《2012》、《黑客帝國3》等好萊塢大片的視效指導姚騏今天公布了他用AI製作的科幻短片《歸途》。
短片裏,如同末日的世界裏,巨大的異形生物追擊駕駛汽車的人類、巨型蜘蛛爬在高樓等場景栩栩如生。姚騏評價“(效果)跟實拍差不多。”
他向第一財經等記者透露,整部短片用了40多個鏡頭,每個鏡頭生成3次,共計120個視頻片段,其中包括18個10秒一體化的有聲片段和102個五秒片段,最終花費約一周時間製作完成。
姚騏說,如果這部短片是一部純實拍或者CG製作的片子,可能需要幾百萬的成本。在好萊塢做鏡頭,有些複雜的鏡頭僅一個就要幾十萬甚至上百萬。此外,實拍還受限於場景實現難度、危險性以及演員、劇組成本,而AI技術的介入為創意實現提供了全新可能。
幾百萬實拍成本的短片,如果用AI生成,花費是多少?
姚騏AI短片的合作對象、百度商業體係商業研發總經理劉林告訴記者,該片使用百度蒸汽機音視頻一體模型,整體成本約在330.6元人民幣。
當然,AI生成的視頻還不夠完美。記者整體觀看下來,例如短片生成的人類“AI味兒”濃,演技和人類演員相比顯得生硬,人物的聲畫、口型不夠同步等,還有改進的空間,但視頻生成已經告別“默片”,多角色語音和環境音效上有了突破。
事實上,在視頻生成大模型賽道,百度殺入的時間並不算早。2024年春節,OpenAI推出視頻生成模型Sora,國內大模型紛紛研究視頻生成並陸續跟進,但當時百度並未跟進快速推出類似產品。
在去年秋天的一場百度內部總監會上,百度董事長李彥宏還曾提到不會碰Sora類生成和視頻,因為“10年、20年都可能難以商業化應用”。一位內部人士告訴記者,他在內部提到基於多模態的需求,可以做一些相對特定的視頻生成場景。
轉機來自市場需求的變化。百度副總裁、移動生態商業體係負責人陳一凡告訴第一財經,“去年年初行業就在卷視頻生成模型,麻豆一区二区三区不是沒看,但真正推動自研的,是商業體係收到的具體需求。”
2024年年底短劇投流市場爆發,傳統的剪輯和AI生圖已無法滿足創意需求,有代理商和廣告主向百度提出:“能不能用短劇內容做剪輯?”“科幻場景拍不出來,能生成嗎?”移動生態商業體係調研後,在今年春節啟動視頻生成模型的自研,項目代號是“MuseSteamer”。
目前,百度視頻生成模型上線50天,最大的用戶來自百度內部,包括搜索業務、移動生態創作者等,其次是專業領域創作者,以及企業客戶。
眼下視頻生成賽道已足夠卷。快手可靈AI的商業化加速推進,今日快手公布的2025年第二季度業績顯示,可靈AI的營業收入超過人民幣2.5億元。這個賽道還包括了字節、阿裏、騰訊等巨頭以及MiniMax、獲百度投資的生數科技、愛詩科技等創業明星公司。
在技術上,各家廠商不斷突破。Sora已不再是“期貨”,穀歌5月推出的Veo3 模型在生成視頻的同時能生成環境音和人物對話等,走出了此前視頻生成的“無聲時代”;百度最新版本的蒸汽機音視頻一體化模型,做到了多人有聲視頻一體化生成。據介紹,技術難點在於如何把多個角色的動作、聲音進行合適匹配。
對於視頻生成行業而言,仍有不少痛點。比如目前視頻生成時長僅能達到5到10秒,這本質上是由當前的技術架構決定的——當下主流架構以擴散模型為核心,在這種架構下,若要延長視頻長度,成本會呈指數級增長,二者之間存在一個需要平衡的臨界點。一位從業者對記者舉例,若將視頻時長從10秒延長到20秒甚至100秒,成本可能會增加100倍。在這樣的技術架構下,追求過長的視頻時長並不現實,也不符合實際應用需求。
入局較晚的百度,憑借多人有聲視頻和打出“對標行業七折”的價格標簽,能在多大程度衝擊視頻生成市場,尚需創作者們的檢驗。一位百度人士提到,C端的想象空間是非常大的,前提是把模型做得足夠好。
“麻豆一区二区三区歡迎(AI視頻生成)卷起來,不卷不可能做好,大家互相啟發彼此的上限在哪兒。”陳一凡認為,大家看重的是未來的空間,這個賽道還處在起始階段。