一区二区三区无码精品，国产99精品免费线观看视频，久久免费无码专区外国精品，亚洲韩日AV无码，日韩殴无码中文字幕，色窝窝播放视频在线观看，国产成人小精品视频，国内揄拍高清国内精品对白

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

為什么Sora不能成為世界模型？

王智遠(yuǎn)

2025-03-07

0 評(píng)論 662 瀏覽 1 收藏

16 分鐘

盡管Sora能夠生成逼真的視頻畫面，它是否真的能夠成為理解世界、模擬物理規(guī)則的“世界模型”？本文將深入探討Sora的技術(shù)原理、其在物理規(guī)則理解和因果關(guān)系推理上的局限性，供大家參考。

寫完一篇空間智能文章，發(fā)到群里，聊它如何用虛擬空間數(shù)據(jù)訓(xùn)練機(jī)器人，幫人類理解世界。

結(jié)果有朋友提出個(gè)問題：

文生視頻算不算空間智能？它也能生成虛擬場(chǎng)景，為什么不是最佳途徑？

這問題挺有意思，我第一反應(yīng)就想到了Sora。

文生視頻“新星”崛起速度太快，幾句話能生成一個(gè)視頻，兩年內(nèi)字節(jié)、騰訊、甚至其他模型廠商紛紛壓住該賽道。

不過，兩年過去，有人發(fā)現(xiàn)它沒那么完美，生成人像總帶著“恐怖谷”的詭異，連Facebook首席人工智能科學(xué)家Yann LeCun也點(diǎn)評(píng)說：Sora不過是畫得好看，壓根不懂物理規(guī)律。

于是，我?guī)е蓡栄芯苛艘幌拢嚎此茝?qiáng)大的Sora，為什么不能成為真正的世界模擬器？它和空間智能的差距到底在哪？

01

愛因斯坦有句經(jīng)典的名言：

“如果不能簡(jiǎn)單地解釋一件事，那就說明還沒有真正理解它?！保↖f you can’t explain it simply, you don’t understand it well enough.）

所以，想深入探究，就必須從深層次技術(shù)原理出發(fā)。

Sora的核心是“擴(kuò)散模型”（Diffusion Model）；從一堆隨機(jī)噪點(diǎn)開始，通過AI一步步去掉雜亂，最終生成清晰的畫面，再將這些畫面串聯(lián)成視頻，聽起來像魔法，其實(shí)背后是數(shù)學(xué)原理在支撐。

另外，它還有個(gè)幫手是“Transformer”，這個(gè)詞不少人聽說過。什么意思呢？它擅長(zhǎng)處理序列數(shù)據(jù)，把零散的信息連成一條線。在Sora中，它將文字指令拆解，再把一幀幀畫面串聯(lián)成流暢的動(dòng)作。

舉個(gè)例子：

如果你輸入“船在咖啡杯里航行”，Sora會(huì)先理解“船”和“咖啡杯”，然后，把船、水波蕩漾、船身傾斜這些相關(guān)的詞匯、場(chǎng)景串聯(lián)起來。

這背后依賴海量視頻數(shù)據(jù)和強(qiáng)大的算力，才能在幾秒鐘內(nèi)生成幾十秒的畫面。

可是，你有沒想過，僅僅依賴數(shù)據(jù)堆砌出來的結(jié)果，真的能理解物理世界嗎？答案是不會(huì)。問題就出在架構(gòu)上。

擴(kuò)散模型擅長(zhǎng)從數(shù)據(jù)中學(xué)習(xí)像素規(guī)律，預(yù)測(cè)下一步畫面應(yīng)該是什么樣子；Transformer則能讓幀與幀銜接得天衣無縫。所以從視覺上看，Sora很“聰明”，能夠模仿真實(shí)視頻的連續(xù)感，但仔細(xì)一想，問題就來了。

船怎么可能塞進(jìn)杯子？我試過輸入「貓?zhí)阶郎稀梗嬅媪鲿车脹]話說，結(jié)果貓腿直接穿過了桌面，就像游戲里的穿模。為什么會(huì)這樣？

因?yàn)镾ora的生成邏輯是“畫得好看”，而不是“畫得對(duì)”。

它不懂重力如何讓腳落地，也不懂桌子為何會(huì)擋住貓腿，生成“恐怖谷”人像時(shí)，更一目了然，臉部細(xì)節(jié)一放大就崩了，它只知道靠像素預(yù)測(cè)，卻沒有考慮現(xiàn)實(shí)規(guī)則。

所以，Sora的強(qiáng)項(xiàng)和弱點(diǎn)是一枚硬幣的兩面。

視覺流暢是它的本事，不合理也是它的命門。正如Yann LeCun所說，它“不懂蘋果為何落地”，我覺得這個(gè)觀點(diǎn)很對(duì)：Sora的架構(gòu)根本就沒想去理解物理世界，只是想把畫面糊弄得像真的。

既然Sora不懂物理世界，那它能否成為世界模擬器呢？

我認(rèn)為有點(diǎn)懸。為什么？

世界模擬器是一個(gè)能夠運(yùn)行物理規(guī)則的虛擬環(huán)境，幫助機(jī)器人學(xué)習(xí)現(xiàn)實(shí)中的因果關(guān)系，但Sora生成的視頻雖然看起來像回事，卻毫無真實(shí)性。

你想想看，“船在杯子里”這樣的視頻去怎么去教機(jī)器人，機(jī)器人可能會(huì)以為杯子能裝下萬噸巨輪，這根本沒好用。

因此，擴(kuò)散模型和Transformer的目標(biāo)是視覺生成，而不是物理模擬，Sora更像一個(gè)藝術(shù)工具，追求“好看”的畫面，而不是“對(duì)”的世界，這讓我覺得Sora局限性在于其架構(gòu)沒有對(duì)準(zhǔn)目標(biāo)。

02

既然這樣問題來了：世界模擬器要具備哪些關(guān)鍵特性？

我覺得最基礎(chǔ)的有三點(diǎn)：

得知道現(xiàn)實(shí)物品規(guī)則是什么樣，搬到虛擬場(chǎng)景中，不能差太多；
理解物品與物品之間怎么相互影響的；
還得能把不同物品整合到一起，相互推理。

這么說，有點(diǎn)抽象，我舉個(gè)例子：

你在教一個(gè)機(jī)器人怎么拿東西，世界模擬器里面的“虛擬杯子”，得模仿出真實(shí)杯子的重量、材質(zhì)、形狀，這樣機(jī)器人才知道該用多大的力氣去抓。

模擬器把重力以各指標(biāo)模仿的不準(zhǔn)確，機(jī)器人就會(huì)抓得太緊或者太松，東西就會(huì)掉下來，甚至還會(huì)被弄壞。

再聊聊智能交通。

現(xiàn)實(shí)中，堵車是個(gè)大難題。要解決它，得靠算法、數(shù)據(jù)分析，比如錯(cuò)峰出行。

假設(shè)有個(gè)世界模擬器，如果它沒法模擬紅綠燈時(shí)長(zhǎng)、車輛速度，就無法預(yù)測(cè)哪里會(huì)堵車、什么時(shí)候堵，也做不了錯(cuò)峰規(guī)劃。

同樣，如果模擬器不清楚車輛摩擦力，就判斷不了車子能不能在綠燈時(shí)順利起步或紅燈時(shí)及時(shí)停下；如果搞不清車輛之間的相互影響，交通就會(huì)亂套，甚至可能出事故。

所以，世界模擬器的作用，是把復(fù)雜的物理規(guī)則和物體之間的關(guān)系都搞清楚，這樣才能讓機(jī)器人、智能交通這些高科技的東西更好地工作。

對(duì)比來看，Sora在關(guān)鍵特性上明顯不足。它在視覺生成方面做得很棒，但沒辦法滿足世界模擬器對(duì)物理規(guī)則和因果關(guān)系推理的要求。

這種問題不只出現(xiàn)在Sora上，一些國(guó)產(chǎn)大模型也有類似架構(gòu)缺陷。我刷抖音時(shí)經(jīng)?？吹接腥擞脠D生視頻模型，結(jié)果人突然變成狗，看起來很搞笑，但明顯不符合現(xiàn)實(shí)邏輯。

原因很簡(jiǎn)單，架構(gòu)無法為世界模擬器提供真實(shí)的物理理解能力，因此，在具身智能或其他領(lǐng)域的應(yīng)用就會(huì)受到很大限制。

可以得出一個(gè)結(jié)論：世界模型和文生視頻的架構(gòu)完全不一樣。世界模型要模擬真實(shí)世界，必須懂物理規(guī)律和現(xiàn)實(shí)邏輯；文生視頻主要生成畫面，在邏輯和真實(shí)性上沒那么嚴(yán)格。

03

我認(rèn)為，相比之下，真正值得關(guān)注的，是更注重物理規(guī)則建模和具備因果關(guān)系推理方向的模型。比如：李飛飛的World Labs、黃仁勛的世界模型（Cosmos WFMs），以及群核科技的空間智能。

為什么拿他們舉例呢？有三點(diǎn)：

先看目標(biāo)，黃仁勛提出的 Cosmos WFMs（世界模型）是希望打造一個(gè)能模擬真實(shí)世界的「虛擬大腦」。這個(gè)大腦要懂物理規(guī)則，要知道物體怎么動(dòng)、力怎么作用，還要明白事情的前因后果。

李飛飛的 World Labs 目標(biāo)是讓人工智能真正理解世界。它通過模擬物理規(guī)則、因果關(guān)系和復(fù)雜場(chǎng)景，讓AI不僅能“看到”，還能“理解”世界。

比如：一個(gè)AI產(chǎn)品可以在虛擬場(chǎng)景中預(yù)測(cè)事情的發(fā)展，或根據(jù)不同情況做出合理決策。這種能力對(duì)提升機(jī)器人、自動(dòng)駕駛等領(lǐng)域的智能化至關(guān)重要。

群核科技的空間智能，目標(biāo)是希望把真實(shí)世界搬到數(shù)字世界里，讓AI能看懂、能用，然后用數(shù)據(jù)幫助家居設(shè)計(jì)、建筑規(guī)劃、以及AR、VR這些領(lǐng)域，幫行業(yè)更高效的干活。

說得直白點(diǎn)，是希望打造一個(gè)“數(shù)字孿生”的世界，讓人、AI、空間里面思考和行動(dòng)，解決實(shí)際問題。

既然有了目標(biāo)，再看看三家技術(shù)實(shí)現(xiàn)路徑。

Cosmos WFMs 的技術(shù)實(shí)現(xiàn)路徑是通過構(gòu)建生成式世界基礎(chǔ)模型（WFMs），結(jié)合高級(jí)分詞器、安全護(hù)欄和加速視頻處理管道等關(guān)鍵技術(shù)，為開發(fā)者提供高效的開發(fā)工具。

具體來說，它利用NVIDIA NeMo對(duì)基礎(chǔ)模型進(jìn)行調(diào)優(yōu)，并通過 GitHub 和 Hugging Face 提供開源支持，幫助開發(fā)者生成高仿真的物理數(shù)據(jù)。

此外，Cosmos 還專注于多視角視頻生成、路徑規(guī)劃、避障等任務(wù)，進(jìn)一步提升物理AI在機(jī)器人、自動(dòng)駕駛等領(lǐng)域的應(yīng)用能力。

報(bào)告里面的東西是不是很難懂？

通俗的說：他們做的這套系統(tǒng)，能讓AI學(xué)會(huì)像人一樣看路、規(guī)劃路線、避開障礙物，還能生成各種角度的視頻，特別適合用在機(jī)器人和自動(dòng)駕駛這些領(lǐng)域。

李飛飛的World Labs的技術(shù)實(shí)現(xiàn)路徑是，開發(fā)一種從2D到3D的智能轉(zhuǎn)化技術(shù)，讓AI不僅能看懂平面圖片，還能生成完整的三維空間。

他們的系統(tǒng)從一張普通照片出發(fā)，估算出場(chǎng)景的3D結(jié)構(gòu)，然后補(bǔ)全圖片中看不到的部分，最終生成一個(gè)用戶可以自由探索和互動(dòng)的虛擬世界。

簡(jiǎn)單講，用AI把平面圖像變成立體空間，讓人像在真實(shí)世界一樣能走進(jìn)去、四處看看。這種技術(shù)對(duì)機(jī)器人導(dǎo)航、虛擬現(xiàn)實(shí)等領(lǐng)域特別有用，因?yàn)樗鼈兌家翱臻g智能”來理解和應(yīng)對(duì)復(fù)雜的3D環(huán)境。

群核科技搞空間智能，簡(jiǎn)單來說：

1萬臺(tái)GPU服務(wù)器，用計(jì)算能力幫家居和建筑行業(yè)快速做出大量3D模型，順便攢了一堆2D和3D的設(shè)計(jì)數(shù)據(jù)；把數(shù)據(jù)整合到一個(gè)平臺(tái)上，能生成特別逼真的虛擬場(chǎng)景。

最后，企業(yè)可以用這個(gè)平臺(tái)來訓(xùn)練機(jī)器人，比如：掃地機(jī)器人或者自動(dòng)駕駛設(shè)備，讓它們?cè)谔摂M世界里模擬真實(shí)環(huán)境，學(xué)會(huì)怎么動(dòng)、怎么避障，變得更聰明。

因此，無論黃仁勛的Cosmos WFMs、李飛飛的World Labs，還是群核科技的空間智能，技術(shù)核心目標(biāo)是通過模擬真實(shí)世界的物理規(guī)則和因果關(guān)系，讓AI在空間內(nèi)訓(xùn)練更聰明、更能解決實(shí)際問題。

04

我認(rèn)為，要實(shí)現(xiàn)這一目標(biāo)，離不開一個(gè)關(guān)鍵因素：高質(zhì)量數(shù)據(jù)。數(shù)據(jù)是構(gòu)建世界模型和空間智能的基礎(chǔ)，可它也是發(fā)展里最大的「攔路虎」。

為什么？

我們說具身智能有點(diǎn)抽象，換一個(gè)更具體的詞：“虛擬訓(xùn)練”。虛擬訓(xùn)練有兩個(gè)重要方面：

一個(gè)是生成式的海量數(shù)據(jù)。就像GPT這樣的文字模型，靠超大規(guī)模的數(shù)據(jù)和強(qiáng)大的算力來學(xué)習(xí)和推理；另一個(gè)是真實(shí)數(shù)據(jù)。枕頭的大小、重量、材質(zhì)，或者光線怎么反射、物體怎么碰撞，這些是物理交互場(chǎng)景。

這種真實(shí)數(shù)據(jù)來源于現(xiàn)實(shí)世界，直接決定虛擬訓(xùn)練能否模擬出符合實(shí)際邏輯的行為和反應(yīng)；

換句話說，虛擬訓(xùn)練要兩種數(shù)據(jù)：一種是“虛擬生成”的大數(shù)據(jù)，另一種是“真實(shí)場(chǎng)景”的物理數(shù)據(jù)，而后者，往往成為發(fā)展的瓶頸。

原因很簡(jiǎn)單：文生視頻、文生圖等生成式技術(shù)雖然能生成豐富的內(nèi)容，但很難直接獲取真實(shí)的物理規(guī)則和精確的交互細(xì)節(jié)。

比如，文生視頻可以生成一個(gè)“滾動(dòng)的球”，但它可能無法準(zhǔn)確模擬球在不同材質(zhì)地面上的摩擦力、彈跳高度或碰撞反應(yīng)。

那真實(shí)場(chǎng)景的數(shù)據(jù)從哪兒來呢？只能從真實(shí)世界里來。

通過傳感器、攝像頭、激光雷達(dá)等設(shè)備，從現(xiàn)實(shí)環(huán)境中采集；你開車時(shí)，傳感器會(huì)記錄車輛的運(yùn)動(dòng)軌跡、力度變化、光線反射，還有車輛間距、行人行為，甚至天氣對(duì)路況的影響。這些信息會(huì)被上傳到平臺(tái)，用來分析和訓(xùn)練。

但有了數(shù)據(jù)還不夠。

平臺(tái)的數(shù)據(jù)不能保證下一次操作一定精準(zhǔn)，還得在虛擬環(huán)境里進(jìn)行大量訓(xùn)練；自動(dòng)駕駛汽車，要在虛擬環(huán)境里反復(fù)模擬行駛，可能要跑成千上萬次，直到能應(yīng)對(duì)各種復(fù)雜場(chǎng)景，才能用到現(xiàn)實(shí)世界里。

明白這些，你也就明白了，這不僅是自動(dòng)駕駛、機(jī)器人領(lǐng)域的問題，其他行業(yè)也一樣。

不管醫(yī)療、制造還是農(nóng)業(yè)，世界模型和空間智能都需要海量的真實(shí)數(shù)據(jù)來支撐，并且要通過虛擬環(huán)境的反復(fù)訓(xùn)練來驗(yàn)證和優(yōu)化能力。

換句話說，無論是自動(dòng)駕駛、機(jī)器人導(dǎo)航，還是其他行業(yè)的具身智能應(yīng)用，核心挑戰(zhàn)都在于如何獲取高質(zhì)量的真實(shí)數(shù)據(jù)，再通過虛擬和現(xiàn)實(shí)的結(jié)合，讓AI真正能解決實(shí)際問題；這才是未來技術(shù)落地的關(guān)鍵。

誰有底層架構(gòu)、誰有數(shù)據(jù)，誰才有上牌桌的機(jī)會(huì)。

本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】，微信公眾號(hào)：【王智遠(yuǎn)】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Sora生成視頻截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App