AI生成大模型,是拉高天花板?還是消滅創(chuàng)作者?

0 評(píng)論 809 瀏覽 0 收藏 16 分鐘

隨著人工智能技術(shù)的飛速發(fā)展,AI視頻生成正成為影視行業(yè)的新寵。從Sora的震撼問(wèn)世到國(guó)內(nèi)企業(yè)的紛紛揭竿而起,AI視頻生成技術(shù)正迅速改變著我們對(duì)影視內(nèi)容創(chuàng)作的認(rèn)知。文章將帶您一覽國(guó)內(nèi)AI視頻生成技術(shù)的最新進(jìn)展,探索這一技術(shù)如何為行業(yè)帶來(lái)革命性的變革,并分析其面臨的挑戰(zhàn)和未來(lái)的發(fā)展方向。

今年2月Sora問(wèn)世后,放出了幾段文生視頻的片段,給全世界不小的震撼,僅需要一些提示詞描述或者靜態(tài)圖片,Sora就能生成超高畫質(zhì)、堪比電影質(zhì)感長(zhǎng)達(dá)1分鐘的視頻內(nèi)容。馬斯克更是直截了當(dāng)?shù)卣f(shuō):“GG human(人類認(rèn)輸)?!?/p>

這直接讓國(guó)內(nèi)AI視頻生成模型企業(yè)揭竿而起,掀起一場(chǎng)“沒(méi)有硝煙的戰(zhàn)斗”。

時(shí)隔一個(gè)月,國(guó)內(nèi)的AI微短劇便如雨后春筍接連而至,《中國(guó)神話》、《三星堆:未來(lái)啟示錄》、《山海奇鏡之劈波斬浪》、《美猴王》、《AI看典籍》等。讓觀眾感受到中國(guó)企業(yè)不輸Sora的視頻生成模型。

誰(shuí)也不打算放棄這次機(jī)會(huì),因?yàn)檫@場(chǎng)競(jìng)賽不僅代表著企業(yè)科技軟實(shí)力水平,更是一次率先插旗的機(jī)會(huì)。據(jù)《生成式AI商業(yè)落地白皮書》顯示,當(dāng)前有53%的中國(guó)企業(yè)已開(kāi)始有組織地進(jìn)行生成式AI布局。大家都希望能技術(shù)入局分一杯羹,但真正實(shí)現(xiàn)商業(yè)轉(zhuǎn)化卻沒(méi)那么容易。

一、爭(zhēng)相入場(chǎng)AI視頻生成風(fēng)頭正盛

5月開(kāi)始國(guó)內(nèi)企業(yè)相繼公布自研的視頻生成模型,智譜AI的「清影」,愛(ài)詩(shī)科技發(fā)布「PixVerse V2」,生數(shù)科技上線「Vidu」,快手的「可靈 」,抖音的「即夢(mèng)AI」,「美圖奇想」大模型、貓眼娛樂(lè)「神筆馬良」……一時(shí)間,視頻生成模型領(lǐng)域好不熱鬧!

其實(shí)從是2023年大模型浪潮來(lái)襲,國(guó)內(nèi)就有一批”先行者“企業(yè)率先入局視頻生成模型,智象未來(lái)、出門問(wèn)問(wèn)、商湯科技能,當(dāng)時(shí)仍在探索階段,還有很多問(wèn)題需要解決。雖然能做到文字生視頻,但只能完成簡(jiǎn)單指令、畫質(zhì)不清晰、視覺(jué)效果不真實(shí)、內(nèi)容不連貫,無(wú)法精準(zhǔn)控制輸出,大家還在不斷訓(xùn)練升級(jí)中。

直到3月國(guó)內(nèi)首部AI全流程微短劇《中國(guó)神話》在央視頻上線播出后,大家看到國(guó)內(nèi)的技術(shù)完全不輸Sora,模型生成的分辨率、幀率和時(shí)長(zhǎng)等水平不斷提升。隨后快手可靈推出《山海奇鏡之劈波斬浪》、抖音即夢(mèng)打造《三星堆:未來(lái)啟示錄》,展示著國(guó)內(nèi)技術(shù)已經(jīng)足夠創(chuàng)作完整影視作品的能力。

圖片:《三星堆:未來(lái)啟示錄》截圖

如今輕體量的短劇,也成為視頻生成模型企業(yè)推出作品的首選方式,主要是看重,短劇的每集1-3分鐘時(shí)長(zhǎng)、畫面沒(méi)有過(guò)高要求、視頻平臺(tái)上線門檻低、故事性要求不強(qiáng)的性質(zhì),這樣一來(lái),視頻生成模型就能發(fā)揮更強(qiáng)的執(zhí)行力,對(duì)視頻作品有較高的完成度,最終創(chuàng)作的AI微短劇也更符合年輕化觀眾的審美興趣。

更重要的是,經(jīng)過(guò)不斷地更迭調(diào)整,相比初代的視頻生成模型技術(shù),現(xiàn)在已經(jīng)能夠在畫面中呈現(xiàn)出復(fù)雜的物理規(guī)律效果,各家平臺(tái)也具備各自的優(yōu)勢(shì)。

5月上線的「即夢(mèng)」是最為大眾所知的剪映旗下產(chǎn)品,由「剪映Dreamina」改名而來(lái),同時(shí)上線了AI作圖和AI視頻生成功能讓一波科技愛(ài)好者爭(zhēng)相體驗(yàn)。其中圖片生成視頻的全新的視頻創(chuàng)作方式讓測(cè)試者眼前一亮,直接顛覆此前視頻創(chuàng)作的形式。

而字節(jié)跳動(dòng)其實(shí)從2023年開(kāi)始布局AI,并在年底11月成立了專注于 AI 創(chuàng)新業(yè)務(wù)的新部門Flow??梢哉f(shuō)是國(guó)內(nèi)市場(chǎng)上在視頻生成模型方面最有經(jīng)驗(yàn)的公司,其先后推出Boximator、即夢(mèng)AI的經(jīng)驗(yàn)積累和技術(shù)迭代下,9月24日在火山引擎AI創(chuàng)新巡展上,字節(jié)跳動(dòng)正式宣告進(jìn)軍AI視頻生成領(lǐng)域,一舉發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。相當(dāng)于手握4大視頻生成模型產(chǎn)品,新推出的模型的語(yǔ)義理解能力大大提升,已經(jīng)能夠做到多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫面,并且保證多鏡頭切換的內(nèi)容一致性,這在世界范圍來(lái)說(shuō),都是很難做到的。

6月緊隨其后的快手「可靈」其技術(shù)路線與Sora相似,效果也是直接對(duì)標(biāo)Sora。這也就意味著技術(shù)水平之高,經(jīng)過(guò)4個(gè)月的測(cè)試升級(jí),最新版的能夠比較好地呈現(xiàn)出運(yùn)動(dòng)畫面,還新增了“對(duì)口型”功能,能夠讓視頻里的人物唱歌說(shuō)話時(shí),口型運(yùn)動(dòng)更自然。

除了高水平的模型技術(shù),快手則更注重模型技術(shù)在視頻作品方面的應(yīng)用,9月9日快手啟動(dòng)“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃。宣布與李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤(rùn)年、張吃魚、王子川、王卯卯等 9 位知名導(dǎo)演,以可靈AI為創(chuàng)作工具,生成制作 9 部 AIGC 電影短片。

能看出快手不是在悶頭研發(fā)模型技術(shù),更注重視頻生成大模型的實(shí)用性和觀眾的體驗(yàn)感。畢竟無(wú)論模型發(fā)展多高水平,它都是“工具”,是輔助影視創(chuàng)作、提高創(chuàng)作效率、創(chuàng)新?tīng)I(yíng)銷素材和形式的工具。

最近貓眼娛樂(lè)推出的「神筆馬良」則讓行業(yè)更大為震撼,作為首個(gè)面向長(zhǎng)劇本的AI生成工具,用戶可以上傳劇本,一鍵智能分析、智能角色創(chuàng)作、智能分鏡創(chuàng)作、智能臺(tái)詞朗讀,實(shí)現(xiàn)劇本內(nèi)容的視聽(tīng)化呈現(xiàn)“讓劇本一鍵成片”。

也就是說(shuō),影視創(chuàng)作最繁瑣的劇本環(huán)節(jié)可能“一鍵解決”了,更重要的是為高質(zhì)感、強(qiáng)內(nèi)容、中邏輯的長(zhǎng)劇服務(wù),相當(dāng)于在一定程度上拉高了影視創(chuàng)作的天花板。

二、行業(yè)超速疾行,問(wèn)題尷尬待解

據(jù)QuestMobile發(fā)布的數(shù)據(jù),2024年第一季度,生成式AI(AIGC)成為移動(dòng)互聯(lián)網(wǎng)行業(yè)增速最快、收益最大的行業(yè);今年6月,AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬(wàn),同比增長(zhǎng)653.3%。另有頭豹研究院數(shù)據(jù)顯示,預(yù)計(jì)到2026年,中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模將達(dá)到92.79億元。

視頻生成大模型領(lǐng)域似乎一夜爆火,利好消息滿天飛。

外部風(fēng)險(xiǎn)和國(guó)內(nèi)市場(chǎng)的快速發(fā)展,吸引國(guó)內(nèi)大廠和科技創(chuàng)業(yè)公司依據(jù)自身優(yōu)勢(shì),在AIGC技術(shù)上持續(xù)發(fā)力,推出了更具開(kāi)放性、實(shí)用性的本土化視頻生成大模型。

據(jù)相關(guān)機(jī)構(gòu)及媒體的不完全統(tǒng)計(jì),當(dāng)前國(guó)內(nèi)的大模型數(shù)量超300個(gè),其中僅有140個(gè)左右完成了生成式人工智能服務(wù)備案。今年1-7月,僅35家大模型產(chǎn)業(yè)相關(guān)企業(yè)拿到了億元級(jí)的融資,大部分企業(yè)仍然處在融資早期,甚至尚未過(guò)審。

AI視頻的未來(lái)聽(tīng)起來(lái)很美好,但這個(gè)領(lǐng)域目前并沒(méi)有出現(xiàn)一個(gè)出圈的爆款應(yīng)用。無(wú)論是AI視頻產(chǎn)品還是由AI生成的視頻作品,都像是少數(shù)影視專業(yè)人士的玩具,局限在小圈子范圍內(nèi),始終未能像ChatGPT一樣在大眾層面獲得認(rèn)可。

據(jù)生數(shù)科技CEO唐家渝表示,在技術(shù)路線上,AI視頻行業(yè)目前處于底層架構(gòu)收斂的狀態(tài),可以理解為同質(zhì)化,但并不意味著大家進(jìn)展都一樣。例如現(xiàn)在的大語(yǔ)言模型都會(huì)使用 Transformer架構(gòu),但OpenAI是明顯領(lǐng)先的。

不過(guò),雖然底層架構(gòu)統(tǒng)一,但各個(gè)公司會(huì)有一些差異性。例如,如何有效壓縮視頻,如何在保證質(zhì)量的情況下快速生成視頻,會(huì)涉及非常多算法技巧、算法難點(diǎn),這是導(dǎo)致差異性的主要原因。

目前的視頻生成模型最大的局限性在于可控性不足。比如生成一段畫面,畫面里的人物或者對(duì)象容易崩壞,生成的結(jié)果也有很大的隨機(jī)性,需要不斷地嘗試,這背后的本質(zhì)是目前視頻生成技術(shù)的穩(wěn)定性還不夠。

從實(shí)際落地的層面上看,無(wú)論是廣告、短劇,對(duì)畫面連續(xù)性、一致性的要求是很高的。即便是C端用戶單純?nèi)ネ?,也希望能一次性就生成他們想要的畫面,這都對(duì)視頻生成模型的穩(wěn)定性提出要求。

據(jù)悉,國(guó)內(nèi)主要的視頻生成大模型產(chǎn)品已經(jīng)能夠達(dá)到1080p甚至4K的高清分辨率,單個(gè)鏡頭的視頻時(shí)長(zhǎng)在2-15秒左右,符合影視化的鏡頭時(shí)長(zhǎng)需求,但分鐘級(jí)的長(zhǎng)鏡頭在實(shí)現(xiàn)上還存在難度。提示詞方面,目前,圖生視頻、文生視頻、視頻生視頻均處在迭代階段,視頻生成趨勢(shì)正在由檢索生成、局部生成、走向依靠自然語(yǔ)言提示詞的全量生成,創(chuàng)作門檻更低、生成內(nèi)容更加靈活豐富。

三、大模型接下來(lái)商業(yè)化怎么走?

盡管產(chǎn)品并不完美,但無(wú)論是企業(yè)還是資本市場(chǎng)對(duì)視頻生成大模型的未來(lái)發(fā)展都抱有較高的期待。啟明創(chuàng)投主管合伙人周志峰在2024世界人工智能大會(huì)上將“3年內(nèi)AI視頻生成技術(shù)將全面爆發(fā)”作為2024生成式AI的十大展望之一。”

互聯(lián)網(wǎng)大廠目前已經(jīng)成為行業(yè)引領(lǐng)者,字節(jié)、快手高度重視視頻生成項(xiàng)目。字節(jié)將剪映定位為P0 級(jí)項(xiàng)目,由原CEO 張楠帶隊(duì);快手則將“可靈”定位于戰(zhàn)略級(jí)項(xiàng)目,由技術(shù)大牛萬(wàn)鵬飛帶隊(duì),集全公司數(shù)據(jù)、算力和資金資源。

而之所以視頻生成能夠成為下一個(gè)有明確落地應(yīng)用場(chǎng)景的行業(yè),核心在于“視頻”已經(jīng)成為互聯(lián)網(wǎng)時(shí)代下,C端用戶的最大內(nèi)容消費(fèi)形式。據(jù)量子位研究,在移動(dòng)互聯(lián)網(wǎng)的用戶使用時(shí)長(zhǎng)占比中,短視頻占比達(dá)28%,移動(dòng)視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人均時(shí)長(zhǎng)超64小時(shí)。

視頻生成大模型的用戶分類分為B端和C端兩類,其中B端主要來(lái)自與視頻內(nèi)容相關(guān)的領(lǐng)域,比如廣告、游戲、短劇和影視等。C端用戶一般是獨(dú)立編劇、視頻博主等,作為內(nèi)容生產(chǎn)工具,視頻大模型可以極大程度的豐富各社交平臺(tái)、視頻平臺(tái)的內(nèi)容創(chuàng)作。

對(duì)B端從業(yè)者的滲透,則是視頻生成大模型從“玩具”向“生產(chǎn)力工具”升級(jí)的關(guān)鍵,更重要的是,無(wú)論C端用戶還是B端用戶,人數(shù)規(guī)模的增長(zhǎng)將會(huì)帶動(dòng)大模型平臺(tái)的數(shù)據(jù)飛輪運(yùn)轉(zhuǎn),進(jìn)一步推動(dòng)大模型的技術(shù)升級(jí)和理解能力。

而AI商業(yè)模式也主要有兩種。一種是SaaS(軟件即服務(wù))訂閱模式,用戶打開(kāi)軟件可以直接體驗(yàn)到產(chǎn)品功能。一般這類軟件都會(huì)提供免費(fèi)試用次數(shù),如果用戶有更多的需求或想使用更高級(jí)的能力,就需要支付訂閱費(fèi)用。

另一種是API(應(yīng)用程序編程接口)形式,將模型能力輸出形式提供給用戶,即MaaS(模型即服務(wù))。例如很多編劇公司、自媒體公司都需要具備文生視頻的能力,豐富產(chǎn)品形態(tài),增加競(jìng)爭(zhēng)力。

目前AI視頻生成大模型在影視、廣告、電商、自媒體等領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,甚至取代一部分特效、動(dòng)畫、廣告短片、商品動(dòng)態(tài)展示等創(chuàng)作場(chǎng)景。

智譜AI CEO張鵬在接受媒體采訪時(shí)表示:“現(xiàn)在(視頻生成大模型)的商業(yè)化仍處于非常早期的階段,而且成本實(shí)際上也非常高,后面會(huì)根據(jù)市場(chǎng)的反饋?zhàn)鲋鸩降?。?/p>

AI視頻不會(huì)一直都是小眾產(chǎn)品。就像拍照一樣,一開(kāi)始只是攝影愛(ài)好者或攝影師群體使用,但如今,拍視頻、拍照已經(jīng)成為每個(gè)人的習(xí)慣。相信未來(lái),視頻創(chuàng)作者和消費(fèi)者界限將逐漸模糊,借助AIGC工具,會(huì)有越來(lái)越多消費(fèi)者變成創(chuàng)作者,視頻創(chuàng)作的效果和ROI大幅度提升。

本文由人人都是產(chǎn)品經(jīng)理作者【TOP君】,微信公眾號(hào):【TopMarketing】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!