速遞|李飛飛 World Labs 推出首個 AI 系統(tǒng)—— 生成從圖片到可交互的 3D 場景
李飛飛創(chuàng)業(yè)的項目交出了第一個產(chǎn)品:一個能從單張照片生成類似游戲 3D 場景的 AI 系統(tǒng)。從效果是功能來看,比所謂的文生圖、文生視頻強(qiáng)了很多,而且還支持交互修改,是不是元宇宙的世界,就要來了?
李飛飛創(chuàng)立的 World Labs 推出了首個項目 —— 一個能從單張照片生成類似游戲?3D 場景的 AI 系統(tǒng),其獨(dú)特性在于支持交互且可以修改。
World Labs 的系統(tǒng)能為場景提供交互效果和動畫,例如更改物體的顏色和動態(tài)調(diào)整背景燈光。
該系統(tǒng)屬于一個新興的 AI 類別——“世界模型”(World Models),許多此類模型可以模擬游戲和 3D 環(huán)境,但通常存在偽影和一致性問題。
初創(chuàng)公司 Decart 的 Minecraft 模擬世界模型 Oasis 分辨率較低,并且容易“忘記”關(guān)卡布局。
World Labs 在官方博客中提到,目前的大多數(shù)生成式 AI 工具生成的是 2D 內(nèi)容,比如圖像或視頻,而生成 3D 內(nèi)容則提升了控制力和一致性。
這將改變我們制作電影、游戲、模擬器以及其他物理世界數(shù)字表現(xiàn)形式的方式。
World Labs 的系統(tǒng)將圖片轉(zhuǎn)換為可交互和探索的 3D 場景。用戶可以通過使用箭頭鍵或 WASD 移動,然后單擊并拖動鼠標(biāo)來探索這些 AI 生成的場景。
這些場景在瀏覽器中實時渲染,并配備可調(diào)的模擬景深效果(DoF)。
官網(wǎng)上提供了一個調(diào)節(jié)景深的滑塊,景深效果越強(qiáng),背景物體就越模糊。
World Labs 的方法確保了生成的場景在生成后保持不變,并遵循基本的物理規(guī)律,具有一定的實體感和深度感。
World Labs?還支持模擬推拉變焦,同時調(diào)整攝像機(jī)的位置和視野:
World Labs 還提到,大多數(shù)生成模型預(yù)測的是像素,而預(yù)測 3D 場景則具有許多優(yōu)勢:
- 持久的現(xiàn)實感:一旦生成了一個世界,它會保持穩(wěn)定。如果你暫時離開視線,然后再回來,場景不會發(fā)生變化。這種持久性提供了更連貫的體驗,避免了傳統(tǒng)生成模型中場景不一致的情況。
- 實時控制:在生成場景后,用戶可以實時在場景中自由移動。例如,你可以停下來仔細(xì)觀察一朵花的細(xì)節(jié),或者繞過一個角落,看看背后隱藏了什么。這種實時互動使場景更具沉浸感和探索性。
- 正確的幾何結(jié)構(gòu):World Labs 生成的世界遵循 3D 幾何的基本物理規(guī)則。這些場景具有實體感和深度感,與某些 AI 生成視頻的夢幻性質(zhì)形成對比,更貼近現(xiàn)實體驗。
深度圖是將 3D 場景投影到二維空間的一種方式,它通過像素的顏色深淺來表達(dá)物體的遠(yuǎn)近。
例如,離攝像機(jī)較近的像素可能被顯示為亮色,而較遠(yuǎn)的像素則為暗色。這種方式直觀地展示了場景的三維空間結(jié)構(gòu),為開發(fā)者和用戶理解場景的深度和布局提供了重要工具。
通過這些特性,World Labs 的技術(shù)為生成式 AI 3D 場景奠定了堅實基礎(chǔ),并大幅提升了內(nèi)容的交互性、真實性和一致性。
最后,World Labs 還展示了一條視頻,作者 Brittani Natali 將 World Labs 的技術(shù)與 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相結(jié)合的工作流程。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
3D生成方面的創(chuàng)新還是第一次見噢,能完善到如此,厲害厲害。
World Labs 的技術(shù)在3D場景生成和交互性方面提供了顯著的優(yōu)勢,特別是在持久性、實時控制和正確的幾何結(jié)構(gòu)方面。