整整300天,Sora終于引爆了視覺(jué)核彈

0 評(píng)論 2650 瀏覽 1 收藏 9 分鐘

經(jīng)過(guò)300天的期待,Sora V2版本終于揭開(kāi)了神秘的面紗,帶來(lái)了革命性的視頻生成技術(shù)。這篇文章將帶您深入了解Sora如何重新定義世界模型,以及它在視頻創(chuàng)作、電影生成和內(nèi)容開(kāi)發(fā)等領(lǐng)域的深遠(yuǎn)影響。

從2024年2月15到2024年12月10日,整整間隔300天,最強(qiáng)期貨Sora從預(yù)告到終于面世。

在大洋彼岸,OpenAI打造的12天春晚的Day 3,山姆奧特曼終于正式發(fā)布了Sora V2版本。從未正式推出的V1版本,曾經(jīng)通過(guò)演示視頻帶給過(guò)大家震撼。

這次OpenAI公布了更高端快速版本—Sora Turbo,帶給ChatGPT Plus 和 Pro 用戶。

就像1984年的Mac一樣重新定義影像創(chuàng)作,Sora重新定義了世界模型:“Sora 是理解和模擬現(xiàn)實(shí)的人工智能的基礎(chǔ),這是開(kāi)發(fā)能夠與物理世界互動(dòng)的模型的重要一步。”

我們且看這次發(fā)布的 Sora 最終呈現(xiàn)的能力:

  • 支持分辨率高達(dá) 1080p、時(shí)長(zhǎng)最長(zhǎng) 20 秒的視頻,格式可選寬屏、豎屏或方形。這點(diǎn)沒(méi)什么,國(guó)產(chǎn)AI都可以。相比國(guó)產(chǎn)最長(zhǎng)的2分鐘,Sora這項(xiàng)指標(biāo)還落后了。
  • 但重要的是,Sora配備了分鏡工具,故事板工具(Storyboard)能讓用戶能夠精確指定每一幀的輸入,用戶可以通過(guò)在時(shí)間線上拖動(dòng)和間隔卡片、添加字幕和上傳源媒體來(lái)控制節(jié)奏,同時(shí)確保適當(dāng)?shù)拈g距以避免突然切換。
  • 提供文本生成視頻(text-to-video)、圖像生成視頻(text+image-to-video)、視頻編輯生成(text+video-to-video)。這點(diǎn)也沒(méi)什么,國(guó)產(chǎn)AI也都能實(shí)現(xiàn)。
  • 覺(jué)得簡(jiǎn)單生成不太好玩,OpenAI加入了Remix和Blend兩項(xiàng)新功能。這意味著用戶可以選擇自帶素材進(jìn)行擴(kuò)展、混音和混合,或者從文本生成全新的內(nèi)容。換句話說(shuō),你可以使用Recut修剪和延長(zhǎng)(重新剪輯)、重新混合以創(chuàng)建新變化、混合視頻之間的過(guò)渡。直播演示中,猛犸象和機(jī)器人混合在了一起,走在了沙漠上。

  • Sora可以添加很多幀,連接兩個(gè)不相關(guān)的開(kāi)頭和結(jié)尾。據(jù)說(shuō)測(cè)試中的許多藝術(shù)家都非常喜歡這個(gè)視頻循環(huán)功能。
  • 包含“精選”和“最近”內(nèi)容板塊Explore,幫助大家從社區(qū)中汲取靈感。

實(shí)際上這次短短的直播中,并沒(méi)有過(guò)多呈現(xiàn)Sora生成的案例視頻有多精彩,而是重點(diǎn)介紹了Sora產(chǎn)品的功能特點(diǎn)。

此前在日本藝術(shù)家創(chuàng)作的80年代年輕人舞蹈和OpenAI創(chuàng)意專家ChadNelson 在倫敦展示的 Sora V2 視頻,體現(xiàn)了多主體,多視角、多變焦等環(huán)境中,Sora的畫(huà)面逼真清晰、人物一致性、視頻延展等能力。

大家可以在今天晚點(diǎn)時(shí)間開(kāi)放后體驗(yàn)Sora,是否是對(duì)目前所有的視頻生成模型的一次碾壓。

當(dāng)然,在Sora閉關(guān)迭代的這一年中,國(guó)內(nèi)AI視頻也經(jīng)歷了很多變化。

1.Runway

Runway發(fā)布了第三代視頻生成模型Gen-3,該模型在保真度、一致性和運(yùn)動(dòng)方面有了重大改進(jìn)。

Gen-3 Alpha模型使用視頻和圖像聯(lián)合訓(xùn)練,特色包括90秒內(nèi)快速生成10秒視頻、并行生成多個(gè)視頻、模型驅(qū)動(dòng)新的文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I)等功能。

2.可靈(快手)

快手可靈在6月份發(fā)布,也是類(lèi)Sora的DiT架構(gòu),能夠生成長(zhǎng)達(dá)2分鐘的視頻,且?guī)蔬_(dá)到30fps。圖生視頻、文生視頻、視頻續(xù)寫(xiě)都可,每天有6次免費(fèi)機(jī)會(huì)。

可靈AI以其生成時(shí)長(zhǎng)、效率,以及視頻質(zhì)量位于AI視頻生成產(chǎn)品的第一梯隊(duì),2分鐘的生成時(shí)長(zhǎng)是現(xiàn)在所有產(chǎn)品里的第一,尤其在真實(shí)風(fēng)格場(chǎng)景上的表現(xiàn)更好。快手可靈應(yīng)該是目前商業(yè)化做的最好的,此前公布過(guò)營(yíng)收過(guò)千萬(wàn)。

3.即夢(mèng)(字節(jié)跳動(dòng))

最開(kāi)始的即夢(mèng)大概也是采用SDXL模型,當(dāng)時(shí)鯨哥體驗(yàn)下覺(jué)得是runway1.0的水平。但是在10月份豆包發(fā)布視頻生成-PixelDance模型后,其實(shí)已經(jīng)進(jìn)化到,一度讓我們不再期待Sora了。

搭載這款模型的即夢(mèng)AI 2.0,在對(duì)提示詞的捕捉和理解方面展現(xiàn)出高一致性,精確控制多個(gè)主體,可對(duì)連續(xù)動(dòng)作,連續(xù)鏡頭做高度控制。超寫(xiě)實(shí)效果媲美電影拍攝效果,還支持首幀到尾幀的變化動(dòng)畫(huà),這功能Sora今天也發(fā)布了。

4.騰訊混元

最近被熱議的則是騰訊混元正式上線文生視頻,并全面開(kāi)源,參數(shù)量達(dá)到130億,是當(dāng)前最大的視頻開(kāi)源模型。

混元視頻生成模型在文本視頻一致性、運(yùn)動(dòng)質(zhì)量和畫(huà)面質(zhì)量多個(gè)維度效果領(lǐng)先,在人物、人造場(chǎng)所等場(chǎng)景下表現(xiàn)尤為出色。能夠?qū)崿F(xiàn)在畫(huà)面主角保持不變的情況下自動(dòng)切鏡頭。

綜合來(lái)說(shuō),AI視頻在影像創(chuàng)作、電影生成、短視頻內(nèi)容開(kāi)發(fā)等領(lǐng)域都具有重大意義。

AI視頻創(chuàng)作者“AI Talk”主理人汗青說(shuō)道:“如果Sora能很快提供類(lèi)似效果的民用服務(wù),那確實(shí)是降維打擊,其實(shí)對(duì)創(chuàng)作者來(lái)說(shuō),這個(gè)視頻中多人物同屏,以及畫(huà)面的表現(xiàn)力運(yùn)鏡才是最寶貴的,完全是另一個(gè)層面的東西。什么清晰度、鏡頭長(zhǎng)度其實(shí)不太重要,這是真正做創(chuàng)作的人和技術(shù)狂熱者看待事物的不同角度。”

Sora目前應(yīng)該超出了很多人的預(yù)期,甚至是狂喜。

2023年好萊塢曾爆發(fā)上萬(wàn)名從業(yè)人員走上街頭,他們抗議AI帶來(lái)的挑戰(zhàn)和工作機(jī)會(huì)減少。但現(xiàn)在隨著Sora面世,尤其官方說(shuō)道并不希望一鍵生成,而是希望促進(jìn)創(chuàng)意發(fā)展?,F(xiàn)實(shí)影響真的會(huì)是這樣嗎?

從實(shí)際來(lái)看,Sora這么延遲發(fā)布,很可能并不是技術(shù)上有很大難題,而是安全隱私保護(hù)等問(wèn)題遲遲沒(méi)有解決。

現(xiàn)在終于有了解決方案,OpenAI在官網(wǎng)中提到:

所有 Sora 生成的視頻都帶有元數(shù)據(jù),元數(shù)據(jù)會(huì)將視頻標(biāo)識(shí)為來(lái)自 Sora,以提供透明度,并可用于驗(yàn)證來(lái)源。雖然不完善,但我們默認(rèn)添加了可見(jiàn)水印等保護(hù)措施,并構(gòu)建了一個(gè)內(nèi)部搜索工具,該工具使用第2代的技術(shù)屬性來(lái)幫助驗(yàn)證內(nèi)容是否來(lái)自 Sora。

而對(duì)于用戶很關(guān)心的價(jià)格,披露使用 openai plus 賬戶,您每月可獲得 50 次生成。使用專業(yè)賬戶,每月可以獲得 500 次快速生成(高分辨率下更少),并在較慢的生成模式下獲得無(wú)限制生成。

Sam Altman在直播結(jié)束時(shí)說(shuō)道:回到GPT-1的類(lèi)比,現(xiàn)在還處于早期階段,它會(huì)變得更好。

作者|楊曉鶴

本文由人人都是產(chǎn)品經(jīng)理作者【AI鯨選社】,微信公眾號(hào):【AI鯨選社】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!