12月10日,在公開預(yù)覽版10個月后,OpenAI的人工智能(AI)視頻生成模型Sora正式上線。
盡管發(fā)布內(nèi)容十分重磅,但并未在中國市場激起巨大水花。“效果在預(yù)期之內(nèi)。”北京一家科技企業(yè)負責(zé)人說,目前這一大模型實力并未強到令國內(nèi)從業(yè)者恐慌,“許多功能目前國內(nèi)工具也已經(jīng)具備。”
在視頻生成賽道激戰(zhàn)近一年,國產(chǎn)視頻大模型快速崛起,數(shù)十個產(chǎn)品對外亮相。大模型一方面在技術(shù)上不斷迭代,另一方面,也正在積極探索更多的商業(yè)化空間。
國產(chǎn)視頻大模型集中爆發(fā)
“請《甄嬛傳》祺貴人吃漢堡”“容嬤嬤給紫薇喝橙汁”“小貓自己動手揉面包餃子”……近段時間以來,用AI大模型制作的各種搞笑視頻走紅網(wǎng)絡(luò)。有人將經(jīng)典影視劇“魔改”搞起吃播;有人讓老照片“動”起來吸引大量互動;還有人生成各種AI貓咪視頻粉絲迅速過萬。
這背后,是國產(chǎn)視頻大模型快速崛起,文生視頻、圖生視頻的門檻大大降低。今年3月底,“即夢AI”平臺內(nèi)測,并在5月開放網(wǎng)頁版,8月正式上架移動端。6月6日,“可靈”視頻生成大模型官網(wǎng)正式上線,并在15天之后宣布推出圖生視頻功能。
互聯(lián)網(wǎng)廠商各類視頻生成大模型如雨后春筍般涌現(xiàn)。7月4日,商湯科技發(fā)布人物視頻生成大模型Vimi;7月6日,上線AI生成視頻模型清影;9月19日,阿里云通義萬相發(fā)布視頻生成模型,上線文生視頻和圖生視頻功能;12月3日,騰訊混元大模型上線視頻生成功能。
影視行業(yè)成率先落地場景
視頻生成大模型的批量上線,最先影響的是影視行業(yè)。據(jù)OpenAI透露,自今年2月首次預(yù)告Sora以來,便開始與電影制片廠、媒體高管以及經(jīng)紀(jì)公司展開會談。
中國電影博物館副館長劉軍告訴記者,隨著視覺生成大模型技術(shù)的不斷突破,AIGC(生成式人工智能)技術(shù)不僅可以實現(xiàn)降低視頻內(nèi)容制作成本、提升生產(chǎn)效率的雙贏,更有望發(fā)展出成規(guī)模的、影視工業(yè)級的生產(chǎn)工具。
事實上,國產(chǎn)視頻生成大模型在影視行業(yè)的探索已陸續(xù)有成果落地。6月28日,中央廣播電視總臺制作的三部AI短劇上線。博納影業(yè)與抖音合作推出AI科幻短劇《三星堆:未來啟示錄》,快手也推出AI奇幻短劇《山海奇鏡之劈波斬浪》;截至12月11日,兩部AI短劇在所屬平臺播放量已分別達到5632.3萬次和5269.5萬次。
AIGC電影短片的出現(xiàn),更是讓外界看到潛力。12月6日,中國首個AIGC導(dǎo)演共創(chuàng)計劃上線。“AI效率很高,實現(xiàn)了一條從想象到可視化的結(jié)果路徑。”導(dǎo)演王子川說,比如當(dāng)需要航拍一條跨海大橋爆破場面時,傳統(tǒng)手段不可能馬上實現(xiàn);但AI卻能快速給出20種可能性,“比如要怎么炸,大海是什么樣,要什么樣的海洋激流,汽車要哪一年代的……將想象快速影像化,一下子徹底解放了生產(chǎn)力。”
鑒于影視作品對品質(zhì)、連貫性和藝術(shù)性的要求較高,AI生成的內(nèi)容水準(zhǔn)尚需提升??焓执竽P蛨F隊負責(zé)人張迪坦言,AI技術(shù)在影視應(yīng)用領(lǐng)域仍然處于快速發(fā)展的初級階段:“我們希望能在未來一年時間里,讓它真正成為一個成熟的創(chuàng)作工具。”
商業(yè)化空間有望加速打開
上半場研發(fā)大模型“造錘子”,下半場瞄準(zhǔn)應(yīng)用場景“找釘子”。各大玩家在積極探索AI視頻生成的其他規(guī)?;瘧?yīng)用場景。記者注意到,目前,AI視頻生成技術(shù)已在教育、醫(yī)療、文旅及游戲等產(chǎn)業(yè)中落地。
新壹科技副總裁毛木子舉例,如中國國家旅游雜志的“最美中軸線”影像作品集、國家大劇院的《藝·境》主題展覽、通州區(qū)“運河十周年”宣傳片等,都運用到了視頻生成大模型技術(shù)。
業(yè)內(nèi)人士認(rèn)為,目前國產(chǎn)視頻大模型在畫面的一致性、可控性、豐富程度上都有明顯提升,提高成像質(zhì)量、突破生成時長瓶頸后,有望大幅打開下游商業(yè)化空間。
但作為多模態(tài)生成中難度最大的領(lǐng)域,視頻生成大規(guī)模商業(yè)化仍需應(yīng)對諸多挑戰(zhàn)。騰訊混元多模態(tài)生成技術(shù)負責(zé)人凱撒向記者透露,目前視頻生成大模型在運動維度、圖文一致性上還需進一步提升:“比如5秒視頻共有129幀,每一幀都做對是非常難的。”
毛木子進一步解釋道,視頻保持畫面清晰度的同時,確保鏡頭之間平滑過渡也是一個難題。此外,AI視頻生成的著作權(quán)之爭也仍在被社會廣泛思考、討論,相關(guān)司法亦在探索實踐中。