親測MiniMax海螺視頻:有驚喜,但不如Sora穩(wěn)定

0 評論 1389 瀏覽 0 收藏 12 分鐘

MiniMax 公司近日推出了其首款 AI 高清視頻生成模型 "abab-video-1",標志著其在 AI 視頻生成領(lǐng)域的雄心壯志。在這篇文章中,我們將深入探討這一技術(shù)的實際表現(xiàn),與 OpenAI 的 Sora 模型進行比較,并分析 MiniMax 在國內(nèi)外市場的戰(zhàn)略布局。

新AI四小龍之中,再添一位“Sora玩家”。

8 月 31 日,MiniMax對外發(fā)布了其公司首款 AI 高清視頻生成模型技術(shù)“abab-video-1”。

具體生成效果,可以在海螺AI官網(wǎng)中的海螺視頻體驗,目前最高支持原生分辨率1280*720的25幀視頻,最大時長為6秒(未來或?qū)⒀娱L至10秒),據(jù)稱“效果不亞于Sora”。

MiniMax 海螺AI

官網(wǎng)給出了大量不同提示詞類型的演示視頻,MiniMax創(chuàng)始人兼CEO閆俊杰透露,現(xiàn)在的產(chǎn)品“只是第一版”,且“很快還會有更新”。

策略是可能會先在每一兩周出現(xiàn)新的東西、更加滿意狀態(tài)后,再考慮一些商業(yè)化,包括開放平臺、廣告變現(xiàn)等方式。

消息面上,這家新殺入視頻生成賽道的AI獨角獸,此前其實少有對外發(fā)聲,但從視頻生成效果來看,無疑也是有備而來。

01 國產(chǎn)Sora仍有提升空間

MiniMax在演示中使用的提示詞,有相當一部分是較為復(fù)雜和具體的場景故事,包含大量細節(jié)描述。

而模型最終呈現(xiàn)的效果,完成度也相當高??吹贸?,MiniMax對模型能力也比較有把握。

藍媒匯選了一些演示所用的提示詞喂給MiniMax的對話模型,要求模型仿照其中對場景和運鏡的描述,寫三段新的提示詞,手動優(yōu)化后再喂給視頻生成模型:

在一片幽靜的山林中,鏡頭以一種緩慢而沉穩(wěn)的動態(tài)運動,緩緩?fù)七M,穿過密集的樹木和纏繞的藤蔓。陽光透過樹梢,斑駁地灑在地面上,形成一片片光影交錯的圖案。鏡頭聚焦于一只悠閑覓食的小鹿,捕捉它輕盈跳躍的瞬間,同時運用動態(tài)模糊技術(shù),營造出一種寧靜而神秘的氛圍。

畫面偏暗以體現(xiàn)描述中的“幽靜”,小鹿的運動姿態(tài)也非常合理,只是在穿過樹枝的幾幀,輪廓有些細微的畸變,稍顯不協(xié)調(diào)。但瑕不掩瑜,整體質(zhì)感相當不錯。

以及,生成所需排隊等待的時間,在同一時段和智譜清影、快手可靈對比都很接近,這大概是目前行業(yè)在平衡算力成本和用戶體驗后,效率方面給出的通解了。

第二段提示詞:

寧靜的湖畔,微風拂過時水中產(chǎn)生波紋。湖面上的倒影隨著微風輕輕搖曳,形成一幅動人心弦的畫面。通過延時攝影記錄日出時分,湖面從一片寧靜的黑暗逐漸被晨光染成金色的過程。整個視頻以電影效果的調(diào)色和柔和色調(diào)處理,營造出一種寧靜而深邃的氛圍,講述著大自然的寧靜與和諧。

在第一遍生成的視頻中,構(gòu)圖相對簡單,水面效果和光影質(zhì)感都非常OK,但模型顯然沒有完成“日出場景”和“延時攝影”兩項要求。

并且,在將提示詞微調(diào),單獨突出“延時攝影”和“黑暗到日出”兩處要求后,模型第二次跑出的視頻依然沒能get到重點。

第三段提示詞:

在繁忙的都市天際線背景下,鏡頭以一種充滿活力的動態(tài)運動穿梭于高樓大廈之間。陽光在玻璃幕墻上的反射,形成一道道耀眼的光束,鏡頭由近到遠,捕捉都市快節(jié)奏生活的動感。隨后,延時攝影技術(shù)記錄下城市從清晨到夜晚的轉(zhuǎn)變,從第一縷晨光點亮城市到夜幕下燈火輝煌的景象,展現(xiàn)出都市生活的節(jié)奏與活力。

這一次,海螺視頻的AI完全理解了白到黑的變化,但嚴格來說鏡頭是切換到了另一個畫面,并非固定機位的延時攝影,前后畫面中出現(xiàn)的內(nèi)容也并無明顯關(guān)聯(lián)。

貨比三家,將這一提示詞同樣喂給藍媒匯此前測試過的快手可靈和智譜清影,默認參數(shù)設(shè)置下:

可靈:生成的房屋輪廓相對穩(wěn)定,遠景有一定程度的畸變,但沒有做出通過延時攝影體現(xiàn)白天到夜間的變化。

清影:生成的房屋輪廓變形略顯嚴重,不過抓住了提示詞中關(guān)于鏡頭和光影的絕大部分要求。

當然,不排除是輸入的提示詞并沒有用最適合AI理解的表達方式,換一位更專業(yè)的模型訓練者來寫效果會更好。

但即使是這樣,對于一款需要落地日常內(nèi)容創(chuàng)作、尋求商業(yè)化的產(chǎn)品,如果在理解需求階段就有“提示詞專業(yè)格式”這類門檻,想必也會勸退部分有意向的使用者。

不管問題是出在提示詞輸入,還是模型理解和生成,現(xiàn)有的視頻質(zhì)量與OpenAI放出的Sora演示視頻相比,都明顯缺乏穩(wěn)定性:對于提示詞的穩(wěn)定理解,和畫面一致性。

顯然,短期內(nèi)無法達到“實用創(chuàng)作工具”的范疇。

02 出海有商機

一個有意思的點,在海螺視頻官網(wǎng)右上角,給了兩個社群入口,一個是飛書,另一個是Discord。

飛書主要面向國內(nèi)用戶,而被墻的 Discord 則完全是面向海外用戶的渠道。實際上,MiniMax 在海外的產(chǎn)品布局已取得了部分成功。

Sensor Tower統(tǒng)計數(shù)據(jù)顯示,MiniMax旗下產(chǎn)品 Talkie 今年6月Talkie在美國免費娛樂類應(yīng)用榜上排名第五,全球月活躍用戶數(shù)達到1100萬,其中超過半數(shù)來自美國,其余用戶則分布在英國、加拿大等國家。年內(nèi)下載量380萬也僅次于ChatGPT等頭部應(yīng)用,排名第四。

閆俊杰此前透露稱,Talkie自2023年6月上線后,累計下載量已接近1400萬次,總營收近83萬美元。并且,與頭部AI虛擬人公司Character.ai的差距逐步減小,月活已經(jīng)接近Character.ai的60%。

對比其面向國內(nèi)的AI內(nèi)容社區(qū)星野,雖然后者在國內(nèi)主流AIGC APP中也做出了一定聲量(Quest Mobile數(shù)據(jù)顯示,星野為國內(nèi)少有月人均使用天數(shù)超過7天的APP,豆包和文心一言等為五天左右),但商業(yè)化卻少有提及,海外市場的付費潛力短期內(nèi)仍更為可觀。

此前在行業(yè)溝通會上,部分業(yè)內(nèi)人士指出,從市場現(xiàn)狀來看,海外用戶在付費意愿和習慣上都遠遠優(yōu)于國內(nèi)用戶。

有消息稱,OpenAI大模型ChatGPT付費訂閱用戶目前已經(jīng)超過1100萬。艾媒咨詢數(shù)據(jù)顯示,未來全球平均用戶娛樂付費意愿呈增長趨勢,美國、英國、法國、德國、日本、韓國六國未來愿意付費獲取娛樂服務(wù)的用戶比例都超過現(xiàn)有用戶比例,這意味著海外用戶對娛樂相關(guān)互聯(lián)網(wǎng)產(chǎn)品的付費意愿在不斷增強。

MiniMax國際業(yè)務(wù)總經(jīng)理盛靜遠近期接受采訪時稱,海外市場打法相對直接,變現(xiàn)也更快。而公司現(xiàn)在技術(shù)已處于領(lǐng)先,更多是公司經(jīng)歷、資源和變現(xiàn)問題。

看起來,MiniMax已經(jīng)選好了更接近商業(yè)化的業(yè)務(wù)落點。

不過,最新市場消息顯示,公司Talkie和星野等C端AI產(chǎn)品負責人,曾任職于百度、知乎、字節(jié)的張前川近期已淡出MiniMax公司業(yè)務(wù),處于休假狀態(tài),接近離職。

據(jù)稱,張前川任職期間參與了大量Talkie、星野中的玩法設(shè)計——變化,或許要來了。

作者|陶然 編輯|魏曉

本文由人人都是產(chǎn)品經(jīng)理作者【藍媒匯】,微信公眾號:【AI藍媒匯】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!