淺談AI視頻廠商都在卷的拓展能力
在人工智能的浪潮中,AI視頻工具正成為內(nèi)容創(chuàng)作的新寵。文章從可靈AI的獨(dú)立APP發(fā)布,到各大AI視頻廠商的新功能盤點(diǎn),揭示了AI視頻工具如何在提高視頻制作效率、降低成本的同時(shí),也為內(nèi)容創(chuàng)作者帶來新的挑戰(zhàn)和機(jī)遇。
前言
最近(24/11/11)刷到一個(gè)AI新聞,說可靈AI已經(jīng)正式推出了獨(dú)立的APP(原本掛載在快手的剪輯APP快影下方),并對外聲稱“目前可靈AI已經(jīng)有超過360萬用戶,累計(jì)生成3700萬個(gè)視頻、超一億張圖片”。
3700個(gè)視頻什么概念?如果全都按標(biāo)準(zhǔn)質(zhì)量、5秒視頻算,3700萬個(gè)視頻需要花費(fèi)價(jià)值2590萬的靈感值(可靈的抽卡貨幣)。不過這樣算并不準(zhǔn)確,因?yàn)椋?/p>
1.存在額外增項(xiàng):例如高質(zhì)量生成需求、10s視頻生成需求、拓展功能使用需求、1.5版本可靈使用需求等增購項(xiàng)目,這些內(nèi)容會(huì)提高單個(gè)視頻的收費(fèi)。
2.存在靈感值贈(zèng)送機(jī)制:可靈抽卡并非直接使用RMB,而是使用靈感值這個(gè)貨幣。除了充值獲取,非會(huì)員每月登錄都會(huì)送靈感值,而會(huì)員每天都會(huì)送靈感值。
所以實(shí)際收入多少,在缺乏更多數(shù)據(jù)的情況下,我這個(gè)門外漢也說不準(zhǔn)。
但這讓我想起三個(gè)月前(24年7月底)寫的AI剪輯相關(guān)的分析《淺談當(dāng)前的AI剪輯工具》,當(dāng)時(shí)俺對AI生成視頻概括為“能一定程度上解決業(yè)務(wù)的需求,節(jié)省視頻畫面制作的成本”,但是存在諸如“指令識別不準(zhǔn)”、“無法修改”、“模糊”、“人物動(dòng)作合理性”、“身體細(xì)節(jié)錯(cuò)誤”、“主體不一致”、“物理運(yùn)動(dòng)BUG”等問題,所以整體的使用上還“差點(diǎn)意思”。
而如今短短3個(gè)月過去,可靈就取得了一定的成績。這一定程度上歸功于可靈在近期發(fā)布的1.5版本,其中引入了新一代模型,畫質(zhì)和動(dòng)態(tài)質(zhì)量都得到提升,并且加入了運(yùn)動(dòng)筆刷、對口型、外放API等能力,生成效果和使用場景得到了加強(qiáng)和拓展。
同時(shí)隨著各家AI視頻能力的發(fā)展,網(wǎng)上AI視頻相關(guān)的內(nèi)容越來越多,這也說明用戶們也在逐漸挖掘掘到的AI視頻的應(yīng)用場景。諸如小的在網(wǎng)上沖浪時(shí)候刷到的以下各種形式的AI視頻:
1.人物轉(zhuǎn)換視頻:經(jīng)常在短視頻平臺上刷到這種A轉(zhuǎn)換成B,然后再轉(zhuǎn)換成C的視頻,給人一種很炫酷的感覺。這類視頻主要是通過AI視頻平臺的首尾幀功能實(shí)現(xiàn)的,通過在首尾幀放上AB圖片(也可以是AI生成的),就可生成A轉(zhuǎn)換成B的視頻。如此生成B轉(zhuǎn)C、C轉(zhuǎn)D……這些的視頻后,通過剪輯拼接合成,就可以生成ABCD無縫轉(zhuǎn)換的效果。
圖片來自于抖音
2.人物互動(dòng):如果圖片里面有兩個(gè)人物,也可讓AI視頻生成兩個(gè)互動(dòng)的視頻。如下圖的A和B擁抱、A和B打架。擁抱的視頻也經(jīng)常被用于“和過世親人互動(dòng)”的場景,讓人也能感受到AI的溫度。
圖片來自于百度
3.搞怪表情:最近有個(gè)比較火的AI魔法貓貓表情包,就是用圖生視頻能力實(shí)現(xiàn)的,還怪可愛咧~
截圖來自于公眾號“表情兔Bot”
4.超自然視頻:小的看到有些人用AI生成一些超自然的視頻,在微信上混淆視聽。就比如有一天,家里長輩發(fā)了一個(gè)聊天記錄,說“給大家開開眼”,結(jié)果俺點(diǎn)開一看是AI生成的。一開始長輩還不信,因?yàn)椤耙曨l沒法P,所以是真的”。
不得不感慨,AI視頻仍舊對于大部分人來說,是超出認(rèn)知的黑科技。萬一這被利用來進(jìn)行“針對老年人的詐騙”,那危險(xiǎn)程度可想而知……
5.AI短片:這是AI視頻一開始被認(rèn)定的主流場景,用來進(jìn)行視頻的生產(chǎn),也有不少廠商用其來生成AI短劇,比如抖音的《三星堆》。在可靈的“創(chuàng)意圈”上,我們也能看到有不少人生成的AI視頻短片。
這些旺盛的用戶需求說明隨著會(huì)玩AI視頻的人越來越多,這歸功于各家AI視頻廠商的共同努力,使得AI視頻也開始走向真正走向“越來越多用戶轉(zhuǎn)化成消費(fèi)者“的爬坡期。
圖片來源于百度
但是AI視頻生成的“指令識別不準(zhǔn)”、“無法修改”、“模糊”、“人物動(dòng)作合理性”、“身體細(xì)節(jié)錯(cuò)誤”、“主體不一致”、“物理運(yùn)動(dòng)BUG”等問題還是阻礙其進(jìn)一步發(fā)展的,這說明到達(dá)“成熟期”還有好長一段路要走。但是從各家AI視頻公司的更新迭代中,我們也可以發(fā)現(xiàn)他們都是有嘗試去通過各種各樣的功能去解決當(dāng)前階段的“缺陷”的,而且除此之外,還會(huì)卷一些額外的拓展能力。
他們有嘗試怎么樣解決這些“缺陷”?這些功能又意味著什么?要下面這段就讓小的來盤點(diǎn)一下。
當(dāng)前的視頻AI的能力
我們先分別講講每家AI視頻廠商最近新增加的能力,拆解下他們是如何嘗試解決AI視頻的問題的??伸`AI
首先就是文首提到的可靈了,可靈最新的版本是1.5版本,其中引入了新一代模型,提高了畫質(zhì)和動(dòng)態(tài)質(zhì)量。
下面用一張圖來分別對比1.5和1.0的效果,由于之前測試到可靈僅在真人視頻上效果較好,所以測試的樣本同樣放了動(dòng)漫和真人兩種類型。
在動(dòng)漫圖片中,可靈1.0存在“生成的臉和手變形”、“手指和領(lǐng)帶也穿?!钡葐栴}。而1.5雖然也有“嘴部動(dòng)畫瑕疵”、“電鋸人拉環(huán)斷了的物理BUG”等問題,但是手指變形和臉部變現(xiàn)問題得到了優(yōu)化,可見其進(jìn)步。
在真人圖片中,可靈1.0存在“人物動(dòng)作毫無邏輯”(這一堆人在干啥呢)、“米國旗飄動(dòng)不自然”等問題。但是在1.5中可以看到,人物動(dòng)作明顯有一定的進(jìn)步,自然且合理多了,而且米國旗的飄動(dòng)顯得十分自然。雖然還是存在“人物主體不一致”(女保鏢變成了男的、人群中出現(xiàn)了兩個(gè)未知的人)的問題。
可見,可靈1.5也一定程度上優(yōu)化了“人物動(dòng)作合理性”、“身體細(xì)節(jié)錯(cuò)誤”、“主體不一致”、“物理運(yùn)動(dòng)BUG”的問題。
而且可靈還提供了以下額外的功能,以優(yōu)化AI視頻生成的效果和工具的能力邊界:
1.尾幀:
該功能僅支持在1.0上使用,支持上傳尾幀,以控制AI視頻的走向,使得生成的視頻不至于“太魔幻”。當(dāng)然,這也是文首提到的生成A轉(zhuǎn)B視頻的工具。
2.運(yùn)動(dòng)筆刷:
該功能僅支持在1.0上使用,該功能支持涂抹一定區(qū)域,并設(shè)定該區(qū)域的運(yùn)動(dòng)軌跡。也支持設(shè)定靜止區(qū)域,該區(qū)域會(huì)保持不動(dòng)。
其中還提供了區(qū)域快捷選擇的功能支持,方便快速選擇區(qū)域。
基于這個(gè)功能,就算是生成結(jié)果較差的可靈1.0,也能生成類似于1.5中的成品效果。(雖然存在“主體不一致”的問題,川建國的臉變現(xiàn)了。)
值得一提的是,使用該功能時(shí),靜止區(qū)域需要盡量選擇多一點(diǎn),否則會(huì)像下面一樣,在莫名其妙的地方出現(xiàn)“物理運(yùn)動(dòng)BUG”。
3.參數(shù)控制:
然后是可靈支持了參數(shù)控制,包含“想象力/相關(guān)性”、“生成品質(zhì)”、“生成時(shí)長”、“生成數(shù)量”。
其中“生成品質(zhì)”參數(shù)一定程度緩解了原本AI生成視頻比較糊的問題。而“生成條數(shù)”解決了“AI生成準(zhǔn)確度不足,需要多次抽卡”的問題,雖然解決方案是“讓用戶花N倍的錢抽多幾次”,但是也能在使用時(shí)候,大大節(jié)省用戶的操作時(shí)間。
4.運(yùn)鏡控制:
該功能可惜不支持圖生視頻,僅支持文生視頻。該問題能一定程度解決AI亂運(yùn)鏡的情況。
先前在使用其他AI視頻工具的時(shí)候,讓人抽卡到崩潰的原因之一是“經(jīng)常生成的謎之運(yùn)鏡”,比如:
5.不希望呈現(xiàn)的內(nèi)容:
這個(gè)就好像AI生圖的負(fù)面提示詞一樣,通過描述不希望出現(xiàn)的畫面內(nèi)容,從而提高生成的準(zhǔn)確度。
6.成品拓展修改:
對于已完成的成品,抖音支持二次進(jìn)行拓展修改,其中支持“對口型”和“延長5s”。
“對口型”支持識別到人臉的視頻進(jìn)行使用,可以自定義輸入的文本,利用文生音技術(shù)和音頻驅(qū)動(dòng)口型技術(shù)生成說話的視頻。或者自行上傳本地的配音,實(shí)現(xiàn)生成說話的視頻。
整體來說,說話的效果十分自然,比市面上能找到的開源方案效果更好。(川建國不能生成對口型的視頻,看來風(fēng)控做得還行啊哈哈。)
右圖是人物在說話“你們吃了嗎?”
7.API:
為了滿足B端場景的大批量生成需求,可靈還提供了API接入服務(wù)。雖然價(jià)格有點(diǎn)貴,但是在AI準(zhǔn)確度不夠需要多次抽卡的當(dāng)下,是一個(gè)能夠讓AI生成視頻在業(yè)務(wù)場景上發(fā)揮價(jià)值的重要能力。因?yàn)檫@能避免人肉進(jìn)行大批量的繁瑣操作,也能避免生成后的超長時(shí)間等待,從而大大提高了B端場景上的AI視頻使用效率。(BTW,花錢效率也上來了hhh。)
8.創(chuàng)意圈:
這是可靈推出的社區(qū)功能,用戶可以在上面上傳高質(zhì)量的視頻,也可以直接打開別人的視頻,一鍵生成同款。
該功能同時(shí)起到了AI能力展現(xiàn)、用戶教育、創(chuàng)作者挖掘的作用。即夢AI
緊接著是字節(jié)系的即夢AI,其在11/8號宣布了使用全新的視頻模型S2.0,宣稱其能有更快的生成速度和更高的品質(zhì)效果。
我們來用同樣的圖片來驗(yàn)證下其效果。
在動(dòng)漫圖片中,1.2(舊版本模型)生成的結(jié)果基本都有問題,人物毫無動(dòng)作,就算在2.0上也并沒有優(yōu)化這個(gè)問題,反而是生成了“謎之運(yùn)鏡”。
在真人圖片中,1.2生成結(jié)果較為“保守”,人物動(dòng)作基本沒有BUG,但是“米國旗飄動(dòng)不自然”。而2.0上反而有點(diǎn)“大膽到抽象了”,我不信邪地抽多了幾次,得到的都是較為抽象的結(jié)果。其中存在較為明顯的“人物動(dòng)作合理性”、“身體細(xì)節(jié)錯(cuò)誤”、“主體不一致”、“物理運(yùn)動(dòng)BUG”的問題。
由于測試樣本有限,未能看到較為明顯的提升,但是可能是我的測試樣本并未在升級的方向上。
即夢也同樣提供了以下額外的功能,以優(yōu)化AI視頻生成的效果和工具的能力邊界:
1.尾幀:
和可靈一樣,拓展功能暫不支持最新的模型使用。也是通過首尾幀圖片來控制視頻的走向,以保證成品的準(zhǔn)確度。
2.動(dòng)效畫板:
該功能同樣僅支持1.2版本使用,用于框選主體位置,然后控制運(yùn)動(dòng)軌跡,以提高成品的準(zhǔn)確度。
不過即夢僅支持控制主體的位置,不像可靈可以控制多個(gè)區(qū)域的動(dòng)與靜。
雖然BUG很多,但是手還是動(dòng)起來了hhh。
3.運(yùn)鏡控制:
該功能同樣僅支持1.2版本使用,用于控制運(yùn)鏡方向,減少謎之運(yùn)鏡的生成。
4.參數(shù)控制:
即夢提供了如“運(yùn)動(dòng)速度”、“生成模式”、“生成時(shí)長”、“視頻比例”、“生成次數(shù)”、“閑時(shí)生成”等的參數(shù),相比起可靈多了速度和模式的控制項(xiàng)目。
5.對口型:
即夢也有對口型能力,相比起可靈,該能力可以單獨(dú)上傳一張人物肖像進(jìn)行口型生成,整體來說會(huì)更方便。(但是也增加了風(fēng)險(xiǎn),因?yàn)榉茿I生成的人物也能用來對口型,可以用于一些侵權(quán)/造謠的違法場景上。)
6.成品拓展修改:
對于已生成的視頻,即夢支持“視頻延長”、“對口型”、“補(bǔ)幀”、“提高分辨率”、“AI配樂”,這里的能力會(huì)相對比可l靈更多點(diǎn),方便視頻制作者生成滿足其需求的視頻內(nèi)容。
值得一提的是其中的AI配樂能力,可以由AI自由發(fā)揮,或者人工指定音樂的場景、流派、情感、樂器進(jìn)行生成,以生成更符合需求的配音。
7.故事創(chuàng)作:
故事創(chuàng)作功能允許用戶導(dǎo)入腳本,按分鏡進(jìn)行視頻創(chuàng)作、圖片創(chuàng)作,配合上音頻編輯能力,以一鍵生成AI視頻。
該能力與LTX Studio、SkyReels等AI視頻短劇的建設(shè)思路是一致的,用腳本把多個(gè)AI視頻串聯(lián)起來,以生成一個(gè)完整的AI視頻,節(jié)省用戶二次剪輯的工作量。但是在AI生成的準(zhǔn)確性不足的情況下,這個(gè)方式也會(huì)疊加各個(gè)視頻的不準(zhǔn)確性問題,從而降低成品質(zhì)量,或者翻倍其中的“抽卡成本”。
8.探索:
與可靈一致,即夢提供了類似于創(chuàng)作圈的功能,用于展示高質(zhì)量的成品,用于能力展現(xiàn)、用戶教育、創(chuàng)作者挖掘。
Luma
Luma最新的版本是9月左右更新的1.6版本,其中發(fā)布了運(yùn)鏡控制功能。
為了驗(yàn)證其效果,我拿出了4個(gè)月前的抽卡結(jié)果進(jìn)行對比。
無論是動(dòng)漫還是真人圖片,Luma兩個(gè)版本的表現(xiàn)都存在很大的問題,并沒有較好的優(yōu)化。
Luma用于“優(yōu)化AI視頻生成的效果和工具的能力邊界”的功能有:
1.尾幀:
和前面提到的可靈、即夢一樣,Luma也支持上傳尾幀,以控制AI視頻的走向。
2.運(yùn)鏡控制:
相比起可靈和即夢的運(yùn)鏡控制,Luma的運(yùn)鏡相比起來十分簡陋,僅支持輸入文本進(jìn)行控制,不能進(jìn)行精細(xì)的幅度控制。
3.循環(huán)功能:
個(gè)人理解這個(gè)功能其實(shí)就是“尾幀”的一種應(yīng)用,而且選擇“Loop”之后,也不允許上傳尾幀了。該設(shè)置項(xiàng)能讓視頻首尾一致,以進(jìn)行循環(huán)播放。
4.API:
Luma支持API,可供大規(guī)模調(diào)用。
Runway
Runway在更新Gen-3 Alpha 和 Gen-3 Alpha Turbo之后,更新了一個(gè)Act-One的能力。
我們來用同樣的圖片來驗(yàn)證下其效果。
在動(dòng)漫圖片中,Gen-2存在“畫面模糊”、“人物臉部異常變現(xiàn)”等問題。但是在Gen-3 Alpha上,這些問題被很好地解決掉了,雖然存在“電鋸人拉環(huán)斷了的物理BUG”,但是人物主體保持得很好。
在真人圖片中,Gen-2的結(jié)果有點(diǎn)慘不忍睹,“主體不一致”(川建國都成國旗了)、“人物動(dòng)作毫無邏輯”(他們在下沉?)。而這些問題,在Gen-3中的帶了很好的解決,雖然還有點(diǎn)動(dòng)作僵硬。
相比來說,Runway新版本的能力提升還是比較明顯的。
那么下面小的匯總下Runway上的拓展功能點(diǎn):
1.尾幀:
本質(zhì)上和前面的功能一致,不贅述。
2.運(yùn)動(dòng)筆刷:
和前面的“運(yùn)動(dòng)筆刷”、“動(dòng)效畫板”一致,不贅述。
不過這個(gè)軌跡控制是用坐標(biāo)參數(shù)控制的,有點(diǎn)反人類。
3.參數(shù)控制:
Runway的參數(shù)支持“清晰度”、“種子”、“水印”、“插幀”、“生成時(shí)長”……
不像國內(nèi)那樣支持多輪抽卡,屬實(shí)難受。
4.運(yùn)鏡控制:
和前面的“運(yùn)鏡控制”類似,不贅述。
5.Act-one:
這是Runway最新推出的一個(gè)能力,可以上傳一個(gè)“臉部清晰”、“身體動(dòng)作較少”的視頻,然后使用AI驅(qū)動(dòng)一張目標(biāo)圖片進(jìn)行臉部動(dòng)作學(xué)習(xí)。
該能力其實(shí)和轉(zhuǎn)口型能力是同源的,都同樣是臉部動(dòng)作轉(zhuǎn)換。
(哈哈,2次元?jiǎng)勇D片的效果還是差點(diǎn)意思。)
6.成品拓展修改:
對于已完成的視頻,Runway支持“視頻拓展”(生成多N秒)、“對口型”(不贅述,和國內(nèi)一致)、“視頻生視頻”(適用于重繪、轉(zhuǎn)畫風(fēng)、細(xì)節(jié)補(bǔ)充等場景)、“時(shí)間剪輯”(改視頻長度or速度)等拓展修改能力。
7.API:
Runway支持API,可供大規(guī)模調(diào)用。
8.Runway watch:
等同于國內(nèi)的“創(chuàng)意圈”,用于進(jìn)行AI能力展現(xiàn)、用戶教育、創(chuàng)作者挖掘。
其他特殊能力
本來還想把PixVerse、清影、PIKA、海螺等視頻生成AI也都看一遍,但是普遍都需要充值會(huì)員,且拓展的功能除了上面提到的,主要就是以下這些了。下面列舉一下:
1.特效玩法:
目前該能力僅看到在PixVerse和PIKA上出現(xiàn),該玩法支持生成各類好玩的特效視頻,比如“捏碎一切”、“毒液變身”……
2.角色控制:
這是PixVerse上的能力,支持選定一個(gè)角色,然后AI會(huì)生成該角色的視頻,以保證主體的一致性。
小結(jié)
為了方便對比各家的能力,我這邊列了一個(gè)表格:
通過以上的調(diào)研,我們可總結(jié)出,各廠商為了解決AI視頻的問題,推出的功能可以分為以下幾類。
1.更牛的AI大模型解決根本問題:
針對AI視頻的問題進(jìn)行大模型訓(xùn)練,能從根本上解決視頻AI的問題。這個(gè)雖然是個(gè)完美的解決方案,但也有問題,就是成本太高、周期太長。
特別是在如今這么多家同時(shí)競爭的情況下,如果把希望全部都放在“成本高、周期長”的新一代模型上,對一家企業(yè)來說風(fēng)險(xiǎn)很高。很有可能由于回收周期太長,看不到未來可行性,股東先行撤資?;蛘邉e家的“新一代模型”投入更多、速度更快,通過先發(fā)優(yōu)勢使得企業(yè)的投入全部白費(fèi)。
2.更多的控制項(xiàng)目提高生成準(zhǔn)確度:
在AI不能完全理解我們輸入的意圖前,需要通過一些固定格式的參數(shù)來控制AI輸出的質(zhì)量。這些固定格式的參數(shù)在“大語言模型”的使用上,又可稱為“提示詞工程”。
而在視頻生成AI領(lǐng)域,我們可以利用“控制項(xiàng)目”來提高生成結(jié)果的準(zhǔn)確度,以保證AI能盡可能滿足業(yè)務(wù)的需求。雖然目前部分AI模型并不能完全遵循全部指令,但是也能一定程度上減少AI的“發(fā)散”,生成相對穩(wěn)定的結(jié)果。
目前常見的控制項(xiàng)目有“首尾幀”、“運(yùn)動(dòng)筆刷”、“生成品質(zhì)”、“生成時(shí)長”、“特效”、“運(yùn)鏡控制”等等。這些功能在AI大模型新版本出來之前,一定程度上能緩解視頻AI的問題,并解決一定程度的需求。
目前AI視頻越來越多,一定程度歸功于這些功能的發(fā)明。就比如“首尾幀”功能造就的“A轉(zhuǎn)B轉(zhuǎn)C”這類視頻。
3.拓展的視頻能力滿足更廣泛的場景:
按照俺之前的梳理,視頻制作流程分成了尋找靈感、制作草稿、收集素材、剪輯成稿。
而前AI生成視頻技術(shù)僅僅能解決“制作草稿”、“收集素材”環(huán)節(jié)的部分需求。因此部分AI視頻廠商開始嘗試拓展視頻制作業(yè)務(wù)的上下游場景,從而提高視頻AI工具的能力邊界,以滿足更多的用戶需求。
比如,大部分廠商都推出了“對口型”能力,這是在試圖滿足視頻制作過程中的“配音制作”需求,使得視頻制作的效率更高
又比如,即夢推出的故事創(chuàng)作能力,這里將“尋找靈感、制作草稿、收集素材、剪輯成稿”環(huán)節(jié)全部整合到了系統(tǒng)上,包含了分鏡稿、畫面生成、配音生成環(huán)節(jié),最終一鍵生成AI視頻。
4.用戶教育以讓用戶用得更好:
AI視頻畢竟是一個(gè)復(fù)雜的工具,并不是所有用戶都能用好的,如果無法完全發(fā)揮工具的全部實(shí)力,那么所有的開發(fā)成本、訓(xùn)練成本都會(huì)被白白浪費(fèi),因此需要一定程度的用戶教育手段。目前各廠商主要是通過“創(chuàng)意圈”這類功能來實(shí)現(xiàn)用戶教育目的的。
所謂創(chuàng)意圈,即創(chuàng)作者社區(qū)。通過在上面發(fā)布高質(zhì)量的AI視頻來展現(xiàn)AI的能力,讓用戶了解到“這個(gè)AI能做到這種程度”,并產(chǎn)生嘗試的欲望。
同時(shí),創(chuàng)意圈還會(huì)支持用戶“一鍵生成同款”,這個(gè)過程中就起到對AI工具參數(shù)設(shè)置的教育作用。
此外,平臺方還需要不斷挖掘其中的KOL創(chuàng)作者,以打造優(yōu)質(zhì)的內(nèi)容生成,并將其中的優(yōu)質(zhì)內(nèi)容發(fā)布在社交媒體上,打造平臺的影響力,吸引自然量用戶。
5.大批量的調(diào)用方式以提升使用效率:
由于視頻生成AI存在準(zhǔn)確度問題,所以目前AI生成視頻是必定需要多次抽卡的。
為了避免人肉手動(dòng)操作進(jìn)行多次抽卡而產(chǎn)生的“超長等待時(shí)間成本”,目前部分廠商提供了“一次性生成多個(gè)視頻”和“API調(diào)用”這些方案。
雖然這些方式會(huì)增加平均的抽卡的費(fèi)用,但是能提升抽卡的效率,也能提高“AI最終生成目標(biāo)視頻”的概率。為什么要卷這些拓展能力
整體來說,目前視頻AI廠商拓展的這些能力都是共同為了“更好地滿足視頻制作需求”這個(gè)目的。
其中,更牛的AI大模型、更多的控制項(xiàng)目能夠提升成品視頻的質(zhì)量,拓展的視頻能力能夠滿足更廣泛的視頻制作場景,用戶教育、大批量的調(diào)用方式能輔助用戶更好地運(yùn)營AI視頻工具。
當(dāng)用戶的視頻制作需求被滿足時(shí),用戶就會(huì)留存在AI視頻工具平臺上,從而給廠商貢獻(xiàn)充值收入。這就構(gòu)成了“視頻制作需求”與“充值收入”的價(jià)值交換模型。
但是“滿足視頻制作需求”這個(gè)其實(shí)是可以分為三個(gè)層次的,可以稱之為視頻制作需求的“點(diǎn)、線、面”。
1.視頻制作需求的“點(diǎn)”:
所謂“點(diǎn)”,即僅僅滿足視頻制作環(huán)節(jié)的某個(gè)單點(diǎn)需求。比如“尋找靈感、制作草稿、收集素材、剪輯成稿”中的單個(gè)視頻片段制作、配音生成、剪輯合成等。
個(gè)人理解目前大部分的AI視頻廠商都處于這個(gè)層次,即AI視頻能力的積累階段。
2.視頻制作需求的“線”:
所謂“線”,即通過多個(gè)單點(diǎn)需求的同時(shí)滿足,滿足了一整條工作流的需求,實(shí)現(xiàn)從0~1的工具輔助。即夢AI的“故事創(chuàng)作”功能就承載了即夢“點(diǎn)連成線”的野心,只不過由于AI視頻的準(zhǔn)確度問題,目前該能力只能滿足極其有限的需求。
目前大部分AI視頻廠商都在試圖通過布局各種能力點(diǎn),從而滿足某個(gè)工作流的需求。
3.視頻制作需求的“面”:
所謂“面”,即通過同時(shí)滿足多個(gè)工作流程的需求,從而形成的一整套“視頻行業(yè)解決方案”。這應(yīng)該是所有AI視頻廠商的終極愿景——用AI顛覆&壟斷整個(gè)領(lǐng)域。
但是廠商是不可能一下子就發(fā)展成某個(gè)“面”的視頻需求解決工具,而是需要逐漸積累,點(diǎn)連成線、線連成面,這也是我們看到不少廠商在拓展各種AI視頻能力。
此外,部分能力還起到的一定的營銷作用。通過其好玩的、有新意的新能力,吸引各種用戶使用,并在社交媒體上發(fā)布,形成裂變效果。
就比如Pika的“捏爆一切特效”、PixVerse的“毒液變身特效”,這些新能力能結(jié)合熱點(diǎn)(毒液電影),或者其本身足夠好玩,能吸引一定的基礎(chǔ)熱度。其次能夠讓用戶制作自身的專屬視頻,滿足用戶的好奇心、自我表達(dá)欲望。這些因素的疊加構(gòu)成了一定程度的“裂變營銷”,為AI視頻平臺積累了一定的知名度和影響力,吸引一定量的用戶以及賺取一定量的會(huì)員收入。
值得一提的是,目前各家AI視頻廠商的能力其實(shí)是難以一較高低的,因?yàn)锳I視頻模型是有擅長領(lǐng)域的區(qū)別的,有些模型擅長單人動(dòng)作,有的擅長多人互動(dòng),有的擅長風(fēng)景,有的會(huì)點(diǎn)獵奇畫面,這與他們的訓(xùn)練樣本相關(guān),每個(gè)廠商的樣本都會(huì)各有側(cè)重,總之各有各的不同。
對用戶來說,他們是較難選擇一款合適自己AI視頻產(chǎn)品的,他們只能選擇能力較為齊全、口碑較好的產(chǎn)品。因此某種程度上,營銷能力決定著AI視頻廠商的生死。(但也不能瞎宣傳,自身能力還需扎實(shí),滿足目標(biāo)群體的需求,否則會(huì)留不住用戶,也會(huì)讓用戶產(chǎn)生一些負(fù)面的認(rèn)知。)小結(jié)
小結(jié)一下?!盀槭裁匆磉@些能力呢?”總的來說是三點(diǎn):
1.更多的拓展能力能更好地滿足用戶的“視頻制作需求”,能在當(dāng)下吸引更多用戶,賺取更多收益,為廠商在后續(xù)的競爭中積累優(yōu)勢。
2.這是廠商顛覆和壟斷整個(gè)“視頻制作領(lǐng)域”的前置步驟,需要積累足夠多的能力點(diǎn),然后點(diǎn)連成線、線連成面。
3.部分能力能夠讓廠商在競爭中“彎道超車”,畢竟?fàn)I銷做得好,能填補(bǔ)一定程度的產(chǎn)品能力差距。誰更容易卷成
如此看來,各家的思路其實(shí)也是大差不差的。那么誰更容易卷呢?
之前在《淺談當(dāng)前的AI剪輯工具》有提到過,目前我的想法還是和之前一樣。主要是滿足以下三點(diǎn)的廠商更容易卷成。
1.有用戶:用AI視頻工具能吸引到足夠的目標(biāo)用戶。
2.能賺錢:能夠跑通與用戶價(jià)值交換的商業(yè)邏輯。
3.有壁壘:在前兩個(gè)過程中構(gòu)建自己的競爭壁壘,以源源不斷進(jìn)行價(jià)值交換。
這里再補(bǔ)充一些新的思考吧。
先講講第一點(diǎn)“有用戶”的拓展思考。
就和AI剪輯工具一樣,AI視頻工具會(huì)有細(xì)分方向,比如不同用戶類型、不同行業(yè)等等。不同方向的用戶群體會(huì)具有不同的AI視頻需求。
因此個(gè)人覺得,AI視頻廠商必須圍繞著目標(biāo)用戶群體的需求進(jìn)行大模型訓(xùn)練,才能夠積累到足夠的目標(biāo)用戶。
對于已經(jīng)領(lǐng)先同行好幾個(gè)版本的頭部廠商來說,他們只需要從已有用戶中提煉一些高價(jià)值需求,針對這部分用戶提供滿足他們需求的AI能力,便能穩(wěn)住他們的基本盤,并在此基礎(chǔ)上拓展更多的領(lǐng)域。
但是對于還在剛剛起步的廠商,他們就必須進(jìn)行目標(biāo)人群的差異化競爭了。因?yàn)锳I的規(guī)模效益存在,后發(fā)者往往需要更多的資源和投入才能趕超,因?yàn)橄胍谟邢拶Y源的情況下趕超是不可能的。只能瞄準(zhǔn)頭部廠商尚未覆蓋的用戶群體,針對他們的訴求訓(xùn)練專屬的視頻大模型,圈住自己的基本盤用戶群體。
那么有什么可以差異化的區(qū)域嗎?這里講講我個(gè)人遇到的一些痛點(diǎn)hh:
比如,目前測試過那么多家AI視頻廠商,大部分都集中在真人視頻方向(可能也和這個(gè)方向的訓(xùn)練難度有關(guān)系),具有卡通Q版AI視頻生成需求的用戶就無法用得上。
再比如,目前測試到的大部分AI視頻的動(dòng)作幅度都比較大,那些小幅度的動(dòng)圖基本很難生成出來,對于想要做廣告展示圖片的制作者來說,目前的AI視頻較難滿足需求。
再講講第二點(diǎn)“能賺錢”的拓展思考。
其實(shí)目前AI視頻的商業(yè)模式基本上都是能賺錢的,只要圈住了目標(biāo)用戶群體,AI視頻本身能滿足他們的需求,他們就會(huì)源源不斷地購買會(huì)員。
但是除了模型訓(xùn)練、功能開發(fā)、人力、設(shè)備機(jī)器相關(guān)的成本,這里還會(huì)需要考慮到“營銷”和“競爭”層面的支出,由于競爭者眾多,也需要在營銷層面進(jìn)行投入,也需要考慮進(jìn)行一定程度的“價(jià)格戰(zhàn)”。
比如可靈就在搞價(jià)格戰(zhàn)。
最后一點(diǎn)“有壁壘”暫時(shí)沒有補(bǔ)充。
壁壘內(nèi)容主要在于大模型能力、用戶量級、行業(yè)方案解決能力等方面上。
小結(jié)
以上,便是個(gè)人最近對AI視頻工具一些觀察和思考了,歡迎指教一二。
本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】,微信公眾號:【檸檬餅干凈又衛(wèi)生】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!