理论片中文字幕无码网站，在线精品91青草国产在线观看，国产成人 aⅴ尤物国产，一级毛片在线播放网站免费，亚洲av片不卡无码久久嫩模，久久国产精品国产精品日韩区，天堂热无码AV，国产成人无码精品综合

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

終局之戰(zhàn)！OpenAI Sora大佬專訪：AI視頻模型仍處在GPT-1時(shí)代

新智元

2024-04-28

0 評(píng)論 476 瀏覽 3 收藏

14 分鐘

Sora一出，誰(shuí)與爭(zhēng)鋒！近日，Sora團(tuán)隊(duì)的三位負(fù)責(zé)人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采訪，解讀了Sora在模擬現(xiàn)實(shí)、預(yù)測(cè)結(jié)果和豐富人類體驗(yàn)等方面帶來的變革。

對(duì)于視頻生成領(lǐng)域，大家一致的看法就是：Sora一出，誰(shuí)與爭(zhēng)鋒！

然而，身處于風(fēng)口浪尖的Sora團(tuán)隊(duì)成員怎么看？

近日，Sora的三位領(lǐng)導(dǎo)者，Aditya 、Tim和Bill接受了專訪。

結(jié)果就是——相當(dāng)穩(wěn)?。?/p>

看過整個(gè)采訪視頻你會(huì)發(fā)現(xiàn)，除了年輕有為，整個(gè)團(tuán)隊(duì)的思考和規(guī)劃都非常穩(wěn)。

穩(wěn)到實(shí)際上沒有什么規(guī)劃。

穩(wěn)到就像是知道自己穩(wěn)贏，或者并不在乎能不能贏，只管踏踏實(shí)實(shí)改進(jìn)模型。

也許是OpenAI的企業(yè)文化？諸位隨意碰瓷，如果有人在排行榜上超過了我，我就會(huì)拉個(gè)分支出來，release一版重歸王座。

ps：對(duì)這三位大佬以及團(tuán)隊(duì)其他成員還不太了解的觀眾老爺們，可以參見這一期。

對(duì)于整個(gè)采訪視頻，小編幫大家總結(jié)成四點(diǎn)：

模擬現(xiàn)實(shí)通往AGI：

AGI是充滿希望的未來，但有了Sora，這一切就不會(huì)止步于想象。

Sora通過在神經(jīng)網(wǎng)絡(luò)中模擬復(fù)雜環(huán)境，彌合了當(dāng)前AI能力與高級(jí)通用智能（AGI）之間的差距。

隨著Sora的發(fā)展，它將能夠全面理解我們的三維世界，實(shí)現(xiàn)向更復(fù)雜人工智能系統(tǒng)的飛躍。

豐富人類體驗(yàn)：

Sora成為了創(chuàng)造力的媒介，用戶利用它來創(chuàng)作新穎的藝術(shù)和敘事。

同時(shí)，Sora的探索增強(qiáng)了傳統(tǒng)形式的內(nèi)容創(chuàng)作，為故事的講述和經(jīng)驗(yàn)的分享提供一個(gè)新的維度。

未來，從娛樂到教育的各個(gè)領(lǐng)域，提供的內(nèi)容將更具沉浸感和互動(dòng)性。

技術(shù)基礎(chǔ)、質(zhì)量成本和受眾：

三位大佬還現(xiàn)場(chǎng)講述了Sora的技術(shù)基礎(chǔ)，包括數(shù)字建模、物理引擎和視頻生成等方面。

另外在實(shí)際部署和優(yōu)化方面，需要考慮可訪問性和可負(fù)擔(dān)性，確保Sora的能力能夠覆蓋廣泛的受眾，同時(shí)又不影響質(zhì)量和效益。

價(jià)值觀：

安全問題是旅途中永遠(yuǎn)不可忽視的。

特別是關(guān)于錯(cuò)誤信息和濫用AI生成內(nèi)容的問題，需要技術(shù)的努力，也需要相關(guān)的準(zhǔn)則和法規(guī)。

三人表示：不急，我們的Sora正在接受藝術(shù)家和倫理學(xué)家的反饋，確保對(duì)齊社會(huì)價(jià)值觀和安全標(biāo)準(zhǔn)。

一、模擬一切，直到AGI

團(tuán)隊(duì)相信，Sora真的處于通往AGI的關(guān)鍵路徑上。

比如我們可以重溫一下Sora曾帶給我們的驚艷場(chǎng)景：

冬日，東京，人群。人們交談、牽手，有人在附近的攤位賣東西。

這個(gè)場(chǎng)景有如此多的復(fù)雜性，很好地說明了如何在神經(jīng)網(wǎng)絡(luò)的權(quán)重范圍內(nèi)，模擬極其復(fù)雜的環(huán)境和世界，并預(yù)測(cè)未來的行為。

為了生成真正逼真的視頻，模型必須學(xué)習(xí)人們?nèi)绾喂ぷ鳌⑷绾闻c他人互動(dòng)，如何思考。

——不僅僅是人，還有動(dòng)物，以及任何你想建模的物體。

而隨著Sora的規(guī)模不斷擴(kuò)大，她將有可能變成另一個(gè)概念股——世界模型。

任何人都可以和這個(gè)「世界模擬器」互動(dòng)，每個(gè)人都可以擁有自己的模擬器，在任何時(shí)候去體驗(yàn)?zāi)M事件、模擬人生（或者模擬愛情？）

通過這種方式，人類將幫助模型一步步走向那個(gè)華麗的終點(diǎn)。

「這將會(huì)發(fā)生」。

二、Sora 如何影響世界

1. 探索創(chuàng)造潛力，豐富人類體驗(yàn)

世界模型在不遠(yuǎn)的未來，而另一些體驗(yàn)就在此刻，發(fā)生在我們身邊。

當(dāng)Sora推出時(shí)，很多人會(huì)被美麗的畫面所吸引，被水中小熊貓的倒影所震驚。

但是現(xiàn)在，越來越多的人開始使用它，職業(yè)創(chuàng)作者可以盡情發(fā)揮自己的創(chuàng)造力，普通人也可以展示自己的想法。

Sora團(tuán)隊(duì)舉了兩個(gè)例子，首先是一個(gè)短篇故事airhead：

區(qū)別于傳統(tǒng)形式的內(nèi)容創(chuàng)作（特效、剪輯等），Sora幫助創(chuàng)作者解鎖了一種很酷的方式，為故事的講述和經(jīng)驗(yàn)的分享提供一個(gè)新的維度。

另一個(gè)例子是Bill本人使用Sora制作的，紐約動(dòng)物園的多鏡頭場(chǎng)景：

作為一個(gè)喜歡生成創(chuàng)意內(nèi)容，但沒有足夠技能去實(shí)現(xiàn)的人，使用Sora這樣的模型可以很容易做出引人注目的作品。

Bill通過提示和迭代得到了自己喜歡的東西，整個(gè)過程只花了不到一個(gè)小時(shí)。

「我玩得很開心」。

2. 從短片到世界模型

技術(shù)積累、由短變長(zhǎng)，是電影工業(yè)的歷程，也是Sora的未來。

看看皮克斯30年來的演變，以后也會(huì)有越來越多的人，使用視頻生成模型，制作越來越多的電影。

同時(shí)Tim認(rèn)為，人們會(huì)找到全新的方式來使用模型，這將與我們習(xí)慣的當(dāng)前媒體完全不同。

比如上面談到的世界模型，創(chuàng)作者以一個(gè)非常不同的范式，模擬想讓用戶看到的東西，人們能夠與內(nèi)容互動(dòng)，帶來意想不到的結(jié)果。

另外一個(gè)急需世界模型的領(lǐng)域，就是機(jī)器人。

Bill表示，機(jī)器人可以從模型構(gòu)建的虛擬世界中學(xué)到很多東西，這是其他形式所無(wú)法比擬的。

再一次回到東京那個(gè)場(chǎng)景，腿是如何運(yùn)動(dòng)的，以及如何以物理上精確的方式與地面接觸。

——模型從原始視頻的訓(xùn)練中學(xué)到的關(guān)于物理世界的知識(shí)，將能夠低成本傳遞給機(jī)器人，或者其他領(lǐng)域。

三、時(shí)空補(bǔ)丁和新架構(gòu)

1. 更多算力，更強(qiáng)性能

Sora在OpenAI的DALL·E模型（Diffusion model）和GPT模型（Transformer）的研究基礎(chǔ)上進(jìn)行構(gòu)建，

擴(kuò)散模型（Diffusion model）是一個(gè)創(chuàng)建數(shù)據(jù)的過程，從噪聲文件開始，反復(fù)刪除噪聲，形成最終結(jié)果。

而Transformer則提供了強(qiáng)大的學(xué)習(xí)能力和可擴(kuò)展性，在更多計(jì)算和更多訓(xùn)練數(shù)據(jù)的加持下，Sora的能力將會(huì)越來越強(qiáng)。

團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果證明了模型表現(xiàn)和算力的這種正相關(guān)，他們也堅(jiān)信這種趨勢(shì)將會(huì)持續(xù)下去。

使用Transformer的好處之一是可以繼承領(lǐng)域中的所有偉大屬性，比如語(yǔ)言。

類比到視頻數(shù)據(jù)，也要構(gòu)建相應(yīng)的損失函數(shù)，還要想辦法在不增加所需計(jì)算量的情況下，獲得更好的損失?！@也是團(tuán)隊(duì)正在努力的方向。

2. 長(zhǎng)視頻生成的秘密

大語(yǔ)言模型范式能夠成功的關(guān)鍵因素之一，就是token的概念。

互聯(lián)網(wǎng)上充斥著各種各樣的文本數(shù)據(jù)，有書籍，有代碼，有數(shù)學(xué)。而LLM將他們統(tǒng)一轉(zhuǎn)化為token，于是能夠在如此廣泛多樣的數(shù)據(jù)上進(jìn)行訓(xùn)練。

而以前的視覺生成模型沒有搞明白這件事情。

在Sora之前，大家一般使用256 × 256分辨率的圖像或256 × 256的視頻進(jìn)行訓(xùn)練，這限制了視頻生成的長(zhǎng)度，更限制了模型能夠獲取的信息。

在Sora中，團(tuán)隊(duì)引入了時(shí)空塊的概念，無(wú)論是圖像還是視頻，也無(wú)論是什么尺寸，只需要把它們看成是一個(gè)個(gè)的小塊。

——這就是相對(duì)于視覺模型的token。

這樣做的結(jié)果是，Sora擁有了通用的能力，不僅僅是生成固定時(shí)間的720p視頻，你可以生成垂直視頻，寬屏視頻，還可以生成圖像。

從零開始：

在Sora之前，許多人一直在做的是對(duì)圖像生成模型進(jìn)行擴(kuò)展，最終可以生成幾秒鐘的視頻。

而我們得先定一個(gè)小目標(biāo)：如果需要制作一分鐘的高清視頻應(yīng)該怎么辦？

以這個(gè)目標(biāo)為導(dǎo)向，就需要拋棄傳統(tǒng)的方法，從零開始，數(shù)據(jù)需要分解成非常簡(jiǎn)單的方式，模型需要可擴(kuò)展，——于是Sora架構(gòu)誕生了。

「這是第一個(gè)視覺內(nèi)容生成模型，同時(shí)具有語(yǔ)言模型的廣度」。

四、創(chuàng)造人人都能用的Sora

1. 價(jià)值觀

安全絕對(duì)是一個(gè)相當(dāng)復(fù)雜的話題。

比如模型處理有害內(nèi)容圖像的方式，比如虛假信息，是否應(yīng)該允許用戶生成帶有攻擊性詞語(yǔ)的圖像？

部署這項(xiàng)技術(shù)的公司應(yīng)該承擔(dān)多少責(zé)任？社交媒體公司應(yīng)該花多大力氣來向用戶表明內(nèi)容的可信度？用戶對(duì)于自己創(chuàng)作的東西應(yīng)該怎樣負(fù)責(zé)？

我們需要認(rèn)真思考這些問題，在保證對(duì)齊人類價(jià)值觀的基礎(chǔ)上，不扼殺未來的創(chuàng)造力。

2. 民主化

目前，生成視頻是非常消耗資源的，而且用戶可能需要等待幾分鐘才能拿到自己的結(jié)果。

未來，這項(xiàng)技術(shù)應(yīng)該惠及所有人，團(tuán)隊(duì)正在朝這個(gè)方向努力。

當(dāng)然，在民主化的過程中，我們也要非常小心錯(cuò)誤信息和任何周圍風(fēng)險(xiǎn)。

3. 從近似世界模型到高保真預(yù)測(cè)

Sora沒有進(jìn)行過3D信息的訓(xùn)練，卻從海量視頻中學(xué)會(huì)了空間關(guān)系。

Sora正在學(xué)習(xí)我們?nèi)祟惖氖澜?，卻有可能比我們更接近真實(shí)。

人類思考事物的方式是有缺陷的，實(shí)際上我們無(wú)法做出非常準(zhǔn)確的長(zhǎng)期預(yù)測(cè)。

而作為世界模型，Sora將提供這種能力，有朝一日會(huì)比人類更聰明。

喂給它給多的算力和數(shù)據(jù)，它就能變得更好。

而隨著規(guī)模的增加，學(xué)習(xí)可擴(kuò)展智能的最佳方法就是預(yù)測(cè)數(shù)據(jù)，——就像LLM所做的那樣。

Sora的scaling law還遠(yuǎn)遠(yuǎn)沒有走完，或者說才剛剛開始。

「這是令人興奮的時(shí)刻，我們期待未來模型的能力」。

參考資料：

https://twitter.com/saranormous/status/1783505771097112703

編輯：alan

來源公眾號(hào)：新智元（ID：AI_era），“智能+”中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

105篇作品 262054總閱讀量

12-112969 瀏覽

構(gòu)建推薦系統(tǒng)：產(chǎn)品經(jīng)理需要做些什么

在瀏覽器中復(fù)刻 visionOS 交互 | 鍵盤

08-254195 瀏覽

產(chǎn)品經(jīng)理需要掌握的能力：產(chǎn)品的需求分析

10-103612 瀏覽

抖音網(wǎng)頁(yè)版上線“放映廳”，真能免費(fèi)看電影了？

01-095550 瀏覽

Runway：AI Native Tools工廠，下一個(gè)時(shí)代的視頻創(chuàng)作工具

04-1312692 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

“五一刺客”，貴到離譜

05-016198 瀏覽
1小時(shí)700元，年入7000萬(wàn)，誰(shuí)在靠年輕人的焦慮賺錢

10-232360 瀏覽
5000+問題，我們找到了互聯(lián)網(wǎng)人最關(guān)注的3個(gè)方向

12-225863 瀏覽

終局之戰(zhàn)！OpenAI Sora大佬專訪：AI視頻模型仍處在GPT-1時(shí)代

一、模擬一切，直到AGI

二、Sora 如何影響世界

1. 探索創(chuàng)造潛力，豐富人類體驗(yàn)