終局之戰(zhàn)!OpenAI Sora大佬專訪:AI視頻模型仍處在GPT-1時(shí)代
Sora一出,誰(shuí)與爭(zhēng)鋒!近日,Sora團(tuán)隊(duì)的三位負(fù)責(zé)人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采訪,解讀了Sora在模擬現(xiàn)實(shí)、預(yù)測(cè)結(jié)果和豐富人類體驗(yàn)等方面帶來的變革。
對(duì)于視頻生成領(lǐng)域,大家一致的看法就是:Sora一出,誰(shuí)與爭(zhēng)鋒!
然而,身處于風(fēng)口浪尖的Sora團(tuán)隊(duì)成員怎么看?
近日,Sora的三位領(lǐng)導(dǎo)者,Aditya 、Tim和Bill接受了專訪。
結(jié)果就是——相當(dāng)穩(wěn)?。?/p>
看過整個(gè)采訪視頻你會(huì)發(fā)現(xiàn),除了年輕有為,整個(gè)團(tuán)隊(duì)的思考和規(guī)劃都非常穩(wěn)。
穩(wěn)到實(shí)際上沒有什么規(guī)劃。
穩(wěn)到就像是知道自己穩(wěn)贏,或者并不在乎能不能贏,只管踏踏實(shí)實(shí)改進(jìn)模型。
也許是OpenAI的企業(yè)文化?諸位隨意碰瓷,如果有人在排行榜上超過了我,我就會(huì)拉個(gè)分支出來,release一版重歸王座。
ps:對(duì)這三位大佬以及團(tuán)隊(duì)其他成員還不太了解的觀眾老爺們,可以參見這一期。
對(duì)于整個(gè)采訪視頻,小編幫大家總結(jié)成四點(diǎn):
模擬現(xiàn)實(shí)通往AGI:
AGI是充滿希望的未來,但有了Sora,這一切就不會(huì)止步于想象。
Sora通過在神經(jīng)網(wǎng)絡(luò)中模擬復(fù)雜環(huán)境,彌合了當(dāng)前AI能力與高級(jí)通用智能(AGI)之間的差距。
隨著Sora的發(fā)展,它將能夠全面理解我們的三維世界,實(shí)現(xiàn)向更復(fù)雜人工智能系統(tǒng)的飛躍。
豐富人類體驗(yàn):
Sora成為了創(chuàng)造力的媒介,用戶利用它來創(chuàng)作新穎的藝術(shù)和敘事。
同時(shí),Sora的探索增強(qiáng)了傳統(tǒng)形式的內(nèi)容創(chuàng)作,為故事的講述和經(jīng)驗(yàn)的分享提供一個(gè)新的維度。
未來,從娛樂到教育的各個(gè)領(lǐng)域,提供的內(nèi)容將更具沉浸感和互動(dòng)性。
技術(shù)基礎(chǔ)、質(zhì)量成本和受眾:
三位大佬還現(xiàn)場(chǎng)講述了Sora的技術(shù)基礎(chǔ),包括數(shù)字建模、物理引擎和視頻生成等方面。
另外在實(shí)際部署和優(yōu)化方面,需要考慮可訪問性和可負(fù)擔(dān)性,確保Sora的能力能夠覆蓋廣泛的受眾,同時(shí)又不影響質(zhì)量和效益。
價(jià)值觀:
安全問題是旅途中永遠(yuǎn)不可忽視的。
特別是關(guān)于錯(cuò)誤信息和濫用AI生成內(nèi)容的問題,需要技術(shù)的努力,也需要相關(guān)的準(zhǔn)則和法規(guī)。
三人表示:不急,我們的Sora正在接受藝術(shù)家和倫理學(xué)家的反饋,確保對(duì)齊社會(huì)價(jià)值觀和安全標(biāo)準(zhǔn)。
一、模擬一切,直到AGI
團(tuán)隊(duì)相信,Sora真的處于通往AGI的關(guān)鍵路徑上。
比如我們可以重溫一下Sora曾帶給我們的驚艷場(chǎng)景:
冬日,東京,人群。人們交談、牽手,有人在附近的攤位賣東西。
這個(gè)場(chǎng)景有如此多的復(fù)雜性,很好地說明了如何在神經(jīng)網(wǎng)絡(luò)的權(quán)重范圍內(nèi),模擬極其復(fù)雜的環(huán)境和世界,并預(yù)測(cè)未來的行為。
為了生成真正逼真的視頻,模型必須學(xué)習(xí)人們?nèi)绾喂ぷ鳌⑷绾闻c他人互動(dòng),如何思考。
——不僅僅是人,還有動(dòng)物,以及任何你想建模的物體。
而隨著Sora的規(guī)模不斷擴(kuò)大,她將有可能變成另一個(gè)概念股——世界模型。
任何人都可以和這個(gè)「世界模擬器」互動(dòng),每個(gè)人都可以擁有自己的模擬器,在任何時(shí)候去體驗(yàn)?zāi)M事件、模擬人生(或者模擬愛情?)
通過這種方式,人類將幫助模型一步步走向那個(gè)華麗的終點(diǎn)。
「這將會(huì)發(fā)生」。
二、Sora 如何影響世界
1. 探索創(chuàng)造潛力,豐富人類體驗(yàn)
世界模型在不遠(yuǎn)的未來,而另一些體驗(yàn)就在此刻,發(fā)生在我們身邊。
當(dāng)Sora推出時(shí),很多人會(huì)被美麗的畫面所吸引,被水中小熊貓的倒影所震驚。
但是現(xiàn)在,越來越多的人開始使用它,職業(yè)創(chuàng)作者可以盡情發(fā)揮自己的創(chuàng)造力,普通人也可以展示自己的想法。
Sora團(tuán)隊(duì)舉了兩個(gè)例子,首先是一個(gè)短篇故事airhead:
區(qū)別于傳統(tǒng)形式的內(nèi)容創(chuàng)作(特效、剪輯等),Sora幫助創(chuàng)作者解鎖了一種很酷的方式,為故事的講述和經(jīng)驗(yàn)的分享提供一個(gè)新的維度。
另一個(gè)例子是Bill本人使用Sora制作的,紐約動(dòng)物園的多鏡頭場(chǎng)景:
作為一個(gè)喜歡生成創(chuàng)意內(nèi)容,但沒有足夠技能去實(shí)現(xiàn)的人,使用Sora這樣的模型可以很容易做出引人注目的作品。
Bill通過提示和迭代得到了自己喜歡的東西,整個(gè)過程只花了不到一個(gè)小時(shí)。
「我玩得很開心」。
2. 從短片到世界模型
技術(shù)積累、由短變長(zhǎng),是電影工業(yè)的歷程,也是Sora的未來。
看看皮克斯30年來的演變,以后也會(huì)有越來越多的人,使用視頻生成模型,制作越來越多的電影。
同時(shí)Tim認(rèn)為,人們會(huì)找到全新的方式來使用模型,這將與我們習(xí)慣的當(dāng)前媒體完全不同。
比如上面談到的世界模型,創(chuàng)作者以一個(gè)非常不同的范式,模擬想讓用戶看到的東西,人們能夠與內(nèi)容互動(dòng),帶來意想不到的結(jié)果。
另外一個(gè)急需世界模型的領(lǐng)域,就是機(jī)器人。
Bill表示,機(jī)器人可以從模型構(gòu)建的虛擬世界中學(xué)到很多東西,這是其他形式所無(wú)法比擬的。
再一次回到東京那個(gè)場(chǎng)景,腿是如何運(yùn)動(dòng)的,以及如何以物理上精確的方式與地面接觸。
——模型從原始視頻的訓(xùn)練中學(xué)到的關(guān)于物理世界的知識(shí),將能夠低成本傳遞給機(jī)器人,或者其他領(lǐng)域。
三、時(shí)空補(bǔ)丁和新架構(gòu)
1. 更多算力,更強(qiáng)性能
Sora在OpenAI的DALL·E模型(Diffusion model)和GPT模型(Transformer)的研究基礎(chǔ)上進(jìn)行構(gòu)建,
擴(kuò)散模型(Diffusion model)是一個(gè)創(chuàng)建數(shù)據(jù)的過程,從噪聲文件開始,反復(fù)刪除噪聲,形成最終結(jié)果。
而Transformer則提供了強(qiáng)大的學(xué)習(xí)能力和可擴(kuò)展性,在更多計(jì)算和更多訓(xùn)練數(shù)據(jù)的加持下,Sora的能力將會(huì)越來越強(qiáng)。
團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果證明了模型表現(xiàn)和算力的這種正相關(guān),他們也堅(jiān)信這種趨勢(shì)將會(huì)持續(xù)下去。
使用Transformer的好處之一是可以繼承領(lǐng)域中的所有偉大屬性,比如語(yǔ)言。
類比到視頻數(shù)據(jù),也要構(gòu)建相應(yīng)的損失函數(shù),還要想辦法在不增加所需計(jì)算量的情況下,獲得更好的損失?!@也是團(tuán)隊(duì)正在努力的方向。
2. 長(zhǎng)視頻生成的秘密
大語(yǔ)言模型范式能夠成功的關(guān)鍵因素之一,就是token的概念。
互聯(lián)網(wǎng)上充斥著各種各樣的文本數(shù)據(jù),有書籍,有代碼,有數(shù)學(xué)。而LLM將他們統(tǒng)一轉(zhuǎn)化為token,于是能夠在如此廣泛多樣的數(shù)據(jù)上進(jìn)行訓(xùn)練。
而以前的視覺生成模型沒有搞明白這件事情。
在Sora之前,大家一般使用256 × 256分辨率的圖像或256 × 256的視頻進(jìn)行訓(xùn)練,這限制了視頻生成的長(zhǎng)度,更限制了模型能夠獲取的信息。
在Sora中,團(tuán)隊(duì)引入了時(shí)空塊的概念,無(wú)論是圖像還是視頻,也無(wú)論是什么尺寸,只需要把它們看成是一個(gè)個(gè)的小塊。
——這就是相對(duì)于視覺模型的token。
這樣做的結(jié)果是,Sora擁有了通用的能力,不僅僅是生成固定時(shí)間的720p視頻,你可以生成垂直視頻,寬屏視頻,還可以生成圖像。
從零開始:
在Sora之前,許多人一直在做的是對(duì)圖像生成模型進(jìn)行擴(kuò)展,最終可以生成幾秒鐘的視頻。
而我們得先定一個(gè)小目標(biāo):如果需要制作一分鐘的高清視頻應(yīng)該怎么辦?
以這個(gè)目標(biāo)為導(dǎo)向,就需要拋棄傳統(tǒng)的方法,從零開始,數(shù)據(jù)需要分解成非常簡(jiǎn)單的方式,模型需要可擴(kuò)展,——于是Sora架構(gòu)誕生了。
「這是第一個(gè)視覺內(nèi)容生成模型,同時(shí)具有語(yǔ)言模型的廣度」。
四、創(chuàng)造人人都能用的Sora
1. 價(jià)值觀
安全絕對(duì)是一個(gè)相當(dāng)復(fù)雜的話題。
比如模型處理有害內(nèi)容圖像的方式,比如虛假信息,是否應(yīng)該允許用戶生成帶有攻擊性詞語(yǔ)的圖像?
部署這項(xiàng)技術(shù)的公司應(yīng)該承擔(dān)多少責(zé)任?社交媒體公司應(yīng)該花多大力氣來向用戶表明內(nèi)容的可信度?用戶對(duì)于自己創(chuàng)作的東西應(yīng)該怎樣負(fù)責(zé)?
我們需要認(rèn)真思考這些問題,在保證對(duì)齊人類價(jià)值觀的基礎(chǔ)上,不扼殺未來的創(chuàng)造力。
2. 民主化
目前,生成視頻是非常消耗資源的,而且用戶可能需要等待幾分鐘才能拿到自己的結(jié)果。
未來,這項(xiàng)技術(shù)應(yīng)該惠及所有人,團(tuán)隊(duì)正在朝這個(gè)方向努力。
當(dāng)然,在民主化的過程中,我們也要非常小心錯(cuò)誤信息和任何周圍風(fēng)險(xiǎn)。
3. 從近似世界模型到高保真預(yù)測(cè)
Sora沒有進(jìn)行過3D信息的訓(xùn)練,卻從海量視頻中學(xué)會(huì)了空間關(guān)系。
Sora正在學(xué)習(xí)我們?nèi)祟惖氖澜?,卻有可能比我們更接近真實(shí)。
人類思考事物的方式是有缺陷的,實(shí)際上我們無(wú)法做出非常準(zhǔn)確的長(zhǎng)期預(yù)測(cè)。
而作為世界模型,Sora將提供這種能力,有朝一日會(huì)比人類更聰明。
喂給它給多的算力和數(shù)據(jù),它就能變得更好。
而隨著規(guī)模的增加,學(xué)習(xí)可擴(kuò)展智能的最佳方法就是預(yù)測(cè)數(shù)據(jù),——就像LLM所做的那樣。
Sora的scaling law還遠(yuǎn)遠(yuǎn)沒有走完,或者說才剛剛開始。
「這是令人興奮的時(shí)刻,我們期待未來模型的能力」。
參考資料:
https://twitter.com/saranormous/status/1783505771097112703
編輯:alan
來源公眾號(hào):新智元(ID:AI_era),“智能+”中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!