再說(shuō)Sora原理:讓復(fù)雜變簡(jiǎn)單
在討論Sora如何處理復(fù)雜視覺(jué)內(nèi)容這一話題中,了解空間時(shí)間補(bǔ)?。⊿pacetime Patches)這一概念是至關(guān)重要的。這篇文章里,作者便探討了視頻壓縮網(wǎng)絡(luò)及其與空間時(shí)間潛在補(bǔ)丁之間的關(guān)系,以及它們?cè)谝曨l生成過(guò)程中的作用,一起來(lái)看一下。
繼上一次分享的《能看懂的Sora原理》討論Sora如何生成視頻的原理之后,讓我們?cè)龠M(jìn)一步集中探索一下空間時(shí)間補(bǔ)丁(Spacetime Patches)這一概念。因?yàn)檫@一概念對(duì)于理解Sora如何處理復(fù)雜視覺(jué)內(nèi)容至關(guān)重要。
空間時(shí)間補(bǔ)丁可以簡(jiǎn)單理解為將視頻或圖片內(nèi)容分解為一系列小塊或“補(bǔ)丁”,每個(gè)小塊都包含了部分時(shí)間空間信息。這種方法的靈感來(lái)源于處理靜態(tài)圖像的技術(shù),其中圖像被分成小塊以便于更有效地處理。在視頻處理的背景下,這一概念被拓展到了時(shí)間維度,不僅包含空間(即圖像的部分區(qū)域),還包括時(shí)間(即這些區(qū)域隨時(shí)間的變化)。
為了理解空間時(shí)間補(bǔ)丁是如何工作的,我們可以借用一個(gè)簡(jiǎn)單的日常生活中的比喻:想象一下,你在觀看一部電影。如果我們將這部電影切割成一幀幀的靜態(tài)畫面,每幀畫面進(jìn)一步切割成更小的區(qū)域(即“補(bǔ)丁”),那么每個(gè)小區(qū)域都會(huì)包含一部分畫面的信息。隨著時(shí)間的推移,這些小區(qū)域中的信息會(huì)隨著物體的移動(dòng)或場(chǎng)景的變化而變化,從而在時(shí)間維度上添加了動(dòng)態(tài)信息。
在Sora中,這樣的“空間時(shí)間補(bǔ)丁”使得模型可以更細(xì)致地處理視頻內(nèi)容的每一個(gè)小片段,同時(shí)考慮它們隨時(shí)間的變化。
具體到Sora處理視覺(jué)內(nèi)容的過(guò)程中,空間時(shí)間補(bǔ)丁首先通過(guò)視頻壓縮網(wǎng)絡(luò)生成。這一網(wǎng)絡(luò)負(fù)責(zé)將原始視頻數(shù)據(jù)壓縮成更低維度的表示形式,即一個(gè)由許多小塊組成的密集網(wǎng)絡(luò)。這些小塊即為我們所說(shuō)的“補(bǔ)丁”,每個(gè)補(bǔ)丁都攜帶了一部分視頻的空間和時(shí)間信息。
一旦生成了這些空間時(shí)間補(bǔ)丁,Sora就可以開(kāi)始它們的轉(zhuǎn)換過(guò)程了。通過(guò)預(yù)先訓(xùn)練好的轉(zhuǎn)換器(Transformer模型),Sora能夠識(shí)別每個(gè)補(bǔ)丁的內(nèi)容,并根據(jù)給定的文本提示進(jìn)行相應(yīng)的修改。例如,如果文本提示是“雪地中的狗狗奔跑”,Sora將找到與“雪地”和“奔跑的狗狗”相關(guān)的補(bǔ)丁,并相應(yīng)調(diào)整它們,以生成與文本提示匹配的視頻內(nèi)容。
之所以Sora可以將“雪地”和“奔跑的狗狗”放在一起,是因?yàn)镾ora是一個(gè)基于語(yǔ)言模型范式的視頻模型。但是要理解為什么語(yǔ)言模型范式在視頻生成任務(wù)上也能這么有效,我們先打個(gè)比方來(lái)說(shuō)一下語(yǔ)言模型為什么能成功生成語(yǔ)言:
語(yǔ)言模型基于一種叫做“token”的概念來(lái)抽象[多模態(tài)]的語(yǔ)言(語(yǔ)言,數(shù)學(xué),代碼。。。)并通過(guò)“預(yù)測(cè)” token 來(lái)生成段落。
打個(gè)比方:
“你吃” 是一個(gè) “Token”
那么你猜下一個(gè)Token更應(yīng)該是以下哪個(gè)?
“了嗎”、 “足浴店”、 “變形金剛” 。。。
很顯然, 答案是 “了嗎”.
所以你明白了嗎?就像是你手機(jī)輸入法的那個(gè)“自動(dòng)補(bǔ)全” 功能, 只不過(guò) token不是具體的詞匯, 是一種隱空間表達(dá)的語(yǔ)言段落, 訓(xùn)練的數(shù)據(jù)量和方式也更高級(jí)。
這其實(shí)就是語(yǔ)言模型范式最簡(jiǎn)單的原理,根據(jù)上一個(gè)Token,推測(cè)下一個(gè)Token,然后不斷往下去“扯犢子”并最終形成一個(gè)篇章的行為模式。
再回到Sora這個(gè)基于語(yǔ)言模型的視頻生成模型,當(dāng)他收到對(duì)應(yīng)文字提示時(shí),他就會(huì)自動(dòng)抓取跟文字提示有關(guān)系的哪些“補(bǔ)丁”然后再將這些補(bǔ)丁從時(shí)間和控件維度上進(jìn)行拼接,最終形成你想要的視頻。
這種基于空間時(shí)間補(bǔ)丁的處理方式有幾個(gè)顯著優(yōu)勢(shì)。首先,它允許Sora以非常精細(xì)的層次操作視頻內(nèi)容,因?yàn)樗梢元?dú)立處理視頻中的每一小塊信息。其次,這種方法極大地提高了處理視頻的靈活性,使得Sora能夠生成具有復(fù)雜動(dòng)態(tài)的高質(zhì)量視頻,而這對(duì)于傳統(tǒng)視頻生成技術(shù)來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。
此外,通過(guò)對(duì)這些補(bǔ)丁進(jìn)行有效管理和轉(zhuǎn)換,Sora能夠在保證視頻內(nèi)容連貫性的同時(shí),創(chuàng)造出豐富多樣的視覺(jué)效果,滿足用戶的各種需求。
隨著對(duì)Sora視頻生成過(guò)程的進(jìn)一步探討,我們可以看到,空間時(shí)間補(bǔ)丁在這一過(guò)程中扮演了極其重要的角色。它們不僅是Sora處理和理解復(fù)雜視覺(jué)內(nèi)容的基石,也是使得Sora能夠高效生成高質(zhì)量視頻的關(guān)鍵因素之一。接下來(lái),我們將更深入地探討視頻壓縮網(wǎng)絡(luò)及其與空間時(shí)間潛在補(bǔ)丁之間的關(guān)系,以及它們?cè)谝曨l生成過(guò)程中的作用。
一、視頻壓縮網(wǎng)絡(luò)
想象一下,你正要將成一個(gè)十分復(fù)雜的樂(lè)高積木分類整理并重新拼組。你的目標(biāo)是,用盡可能少的盒子裝下所有部件,同時(shí)確保能快速找到所需之部件。在這個(gè)過(guò)程中,你可能會(huì)將每個(gè)小部件裝入小盒子中,然后將這些小盒子放入更大的箱子里。這樣,你就用更少、更有組織的空間存儲(chǔ)了同樣多的部件。
視頻壓縮網(wǎng)絡(luò)正是遵循這一原理。它將一段視頻的內(nèi)容“分類和組織”成一個(gè)更加緊湊、高效的形式(即降維)。這樣,Sora就能在處理時(shí)更高效,同時(shí)仍保留足夠的信息來(lái)重建原始視頻。
二、空間時(shí)間潛在補(bǔ)丁提取
接下來(lái),如果你想要細(xì)致地記下每個(gè)盒子里裝了什么,可能會(huì)為每個(gè)盒子編寫一張清單。這樣,當(dāng)你需要找回某個(gè)積木部件時(shí),只需查看對(duì)應(yīng)的清單,就能快速定位它在哪個(gè)盒子里。
在Sora中,類似的“清單”就是空間時(shí)間潛在補(bǔ)丁。通過(guò)視頻壓縮網(wǎng)絡(luò)處理后,Sora會(huì)將視頻分解成一個(gè)個(gè)小塊,這些小塊含有視頻中一小部分的空間和時(shí)間信息,就好像是對(duì)視頻內(nèi)容的詳細(xì)“清單”。這讓Sora在之后的步驟中能針對(duì)性地處理視頻的每一部分。
三、Transformer模型抓取空間時(shí)間補(bǔ)丁
最后,想象一下。某一日你將這幅樂(lè)高積木進(jìn)行拼裝復(fù)原,你仔細(xì)閱讀了拼裝說(shuō)明,你先將樂(lè)高積木分成若干模塊。然后,你根據(jù)各模塊對(duì)應(yīng)的說(shuō)明拼裝出積木的一部分。最終,你再將各模塊的部分進(jìn)行合并,形成一幅完整積木。
在Sora的視頻生成過(guò)程中,Transformer模型正扮演著類似你一樣的角色。它接收空間時(shí)間潛在補(bǔ)丁(即視頻內(nèi)容的“拼部件”)和文本提示(即“說(shuō)明”),然后決定如何將這些片段轉(zhuǎn)換或組合以生成最終的視頻,從而完成可高積木的拼裝和組合。這一過(guò)程既有時(shí)間維度,又有空間維度,每一個(gè)樂(lè)高部件都相當(dāng)于一個(gè)空間時(shí)間補(bǔ)丁。最終生成一個(gè)完整的視頻。
通過(guò)上述這三個(gè)關(guān)鍵步驟的協(xié)同工作,Sora能夠?qū)⑽谋咎崾巨D(zhuǎn)化為具有豐富細(xì)節(jié)和動(dòng)態(tài)效果的視頻內(nèi)容。不僅如此,這一過(guò)程還極大地提升了視頻內(nèi)容生成的靈活性和創(chuàng)造力,使Sora成為一個(gè)強(qiáng)大的視頻創(chuàng)作工具。
最后讓我再一起欣賞下Sora生成的視頻:
Sora能夠生成展現(xiàn)動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻,這意味著它不僅能捕捉到平面圖像中的動(dòng)作,還能以3D的視角呈現(xiàn)物體和人物的運(yùn)動(dòng)。以下是模擬無(wú)人機(jī)對(duì)在山澗中的人進(jìn)行追蹤拍攝的畫面。展現(xiàn)了Sora對(duì)三維空間理解的深度,使得生成的視頻在視覺(jué)上更加真實(shí)和生動(dòng)。
一直旋轉(zhuǎn)的山
在生成長(zhǎng)視頻時(shí),保持視頻中的人物、物體和場(chǎng)景的一致性是一項(xiàng)挑戰(zhàn)。Sora展示了在這方面的卓越能力,能夠在視頻的多個(gè)鏡頭中準(zhǔn)確保持角色的外觀和屬性。例如下方的視頻畫面,當(dāng)人物穿行而過(guò),能保持狗的樣貌和姿勢(shì)保持一致,體現(xiàn)了Sora在維持長(zhǎng)期一致性上的強(qiáng)大能力。
總是張望的狗
Sora真的就如同人類認(rèn)知這個(gè)世界的方式去理解一切事物,它也會(huì)有一些反物理常識(shí)的問(wèn)題出現(xiàn),比如下方這個(gè)視頻,被子沒(méi)有破碎,里面的水就已經(jīng)灑出來(lái)了,這是因?yàn)閷?duì)于復(fù)雜的物理互動(dòng),如玻璃破碎的精細(xì)過(guò)程,或是涉及精確力學(xué)運(yùn)動(dòng)的場(chǎng)景,Sora有時(shí)無(wú)法準(zhǔn)確再現(xiàn)。這主要是因?yàn)镾ora目前的訓(xùn)練數(shù)據(jù)中缺乏足夠的實(shí)例來(lái)讓模型學(xué)習(xí)這些復(fù)雜的物理現(xiàn)象。
總的來(lái)說(shuō),Sora在視頻生成和模擬真實(shí)世界互動(dòng)方面的表現(xiàn)雖然已經(jīng)很出色,但仍然存在諸多挑戰(zhàn)。不過(guò)我們有理由相信,未來(lái)Sora能夠在保持創(chuàng)新的同時(shí),克服當(dāng)前面臨的局限性,展現(xiàn)出更加強(qiáng)大和廣泛的應(yīng)用潛力。
本文由@楠説 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Sora 官網(wǎng)演示視頻截圖
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!