對話騰訊混元團隊:新發(fā)AI生3D模型,能看清每一根羽毛
騰訊混元團隊最新發(fā)布的AI生3D模型v2.5版本,以其卓越的建模精細度和免費試用次數(shù)的翻倍,引起了業(yè)界的廣泛關注。本文將深入探討這一模型的技術升級細節(jié),并通過實際測評展示其在3D對象生成上的強大能力。同時,文章還包含了與騰訊混元技術專家的對話,討論了AI生3D技術在游戲行業(yè)中的應用前景、商業(yè)化潛力以及面臨的挑戰(zhàn),為讀者揭示了AI生3D技術的未來發(fā)展圖景。
短短一個月,騰訊混元 3D 生成模型又升級了一次,從 v2.0 版本到 v.2.5 版本,據(jù)騰訊宣稱 v2.5 版本在建模精細度上大幅提升。加上免費試用次數(shù)翻倍,從 10 次變?yōu)?20 次,知危馬上沖過去做了測評。
早在 v2.0 版本于上個月開源的時候,知危就做了一些嘗試。通過在線體驗,知危實測能夠通過 v2.0 版本獲得不錯的 3D 對象,其中分別驗證了單圖生成、多視圖生成和骨骼綁定的效果。
比如單圖生成《 數(shù)碼寶貝 》中的暴龍獸,還原度簡直不要太高。
輸入圖:
暴龍獸( 圖源:DeviantArt )
輸出:
再通過單圖生成一個戰(zhàn)斗暴龍獸,不僅是整體形態(tài),連盔甲的嵌套結構都還原了出來。
輸入圖:
戰(zhàn)斗暴龍獸( 圖源:eBay )
輸出:
接下來是通過多張照片生成的粉色史迪仔,黃色小圍巾其實不是娃娃自帶的,而是后面綁上去的,也還原的很好,后腦勺的花紋沒有還原有點可惜。
輸入圖:
輸出:
最后是《 辛普森一家 》中的 Homer,v2.0 不僅生成了完整的 3D 模型,還可以通過綁定骨骼,讓 Homer 跳起舞來。
輸入圖:
Homer Simpson( 圖源:TurboSquid )
輸出圖:
據(jù)了解,混元 3D 的開源生態(tài)已經(jīng)比較豐富,包括 1.0、2.0 基礎模型及基于 2.0 ?模型的加速、多視圖和輕量級模型均已開源,Github 總 star 數(shù)超 1.2 萬。
截至目前,v2.0 版本已在 Hugging Face 上的 “ image to 3d ” 模型類別中達成了總下載量第二的成績( 下載量 529k 次,僅次于 TRELLIS-image-large 的1.01M 次 )。
相比 v2.0 版本,混元 3D v2.5 模型總參數(shù)量從 1B 提升至 10B,有效面片數(shù)增加超 10 倍,表面更平整、邊緣更銳利、細節(jié)更豐富,有效幾何分辨率達到1024,“ 就像從標清升級到了超清畫質?!?/p>
比如這張官方展示的法線圖,人臉、身體、翅膀都有非常清晰的輪廓和細節(jié)結構。
再看看知危的實測效果,對比 v2.0 版本和 v2.5 版本的暴龍獸法線圖,在皮膚紋理、頭骨邊界甚至角的紋理等細節(jié)的差距非常明顯。
貼圖質量也更加好,陰影效果很明顯。
通過 v2.5 版本生成并添加了 PBR 貼圖的戰(zhàn)斗暴龍獸,也更有了實體模型的感覺,只是這次頭盔上的角沒有還原是個小遺憾。
我們還嘗試了文生 3D,下圖是通過文生 3D 得到的中世紀騎士持劍騎馬的形象,添加了 PBR 貼圖,除了戰(zhàn)馬身上的布匹不夠破爛、角狀頭盔羽冠成了角之外,基本都遵循了提示,紋理質量和光影效果也很好。
提示詞:
一位中世紀騎士騎著戰(zhàn)馬馳騁,他身披華麗卻飽經(jīng)戰(zhàn)火的盔甲,披著飄逸的斗篷,手持巨大的劍。騎士的盔甲上鐫刻著符文,部分已然失去光澤,頭盔上窄窄的面甲上飾有角狀的羽冠。戰(zhàn)馬肌肉發(fā)達,身披金屬鎧甲,披著破爛的布匹。
然后是 3D 人臉生成,這是單圖生成的 3D 版莫扎特。
對比原圖,可以看到雖然 3D 對象本身質量很高,但和本人沒那么像,結合社區(qū)的反饋,混元 3D 目前對人臉細微特征的還原度確實還不夠高。
莫扎特畫像( 圖源:維基百科 )
最后提醒一下,在做單圖生成的時候,輸入圖片的視角很重要,最好是 45 度側視角,這樣能包含足夠多的對象信息。如果是正視圖,是有較大概率失敗的。
比如在 v2.0 版本下生成的亞古獸,頭部過于扁平了。
輸入原圖是:
亞古獸( 圖源:DigimonWiki )
這僅僅是一次輕量級的測評,混元 3D 還有大量功能比如智能減面、紋理生成、草圖生 3D、小游戲創(chuàng)作等可以去嘗試。
AI 生 3D 技術發(fā)展迅速,但其實整體還處在非常早期的階段,真實性和可控性都是初級水平,這也是目前在技術層面解放開發(fā)者創(chuàng)意發(fā)揮的最大障礙。
眼下,越來越多獨立開發(fā)者或小型工作室將AI生成內(nèi)容嵌入游戲中,以增強游戲內(nèi)容的多樣性和不確定性,以及降低開發(fā)成本,比如“ Infinite Craft ”、“ ChatNPC ”、“ Talking Coin ”、“ telAIphone ”、“ 沙威瑪傳奇 ” 等。其中,“ 沙威瑪傳奇 ” 大量使用了 AI 作畫、AI 作曲、AI 配音。
然而,不同模態(tài)的 AI 生成技術,要整合進復雜的人類工作流,都要先后經(jīng)歷真實性和可控性兩道大關,目前各自發(fā)展成熟度差距明顯。文本生成已經(jīng)到探索強推理的階段;圖像生成剛剛見證 GPT-4o 帶來的精準文字、圖表生成能力;視頻生成的角色和場景一致性不斷增強,但動態(tài)和物理理解仍有欠缺,尚未邁過第一道坎。
為深入了解 AI 生 3D 技術的場景落地現(xiàn)狀和商業(yè)化前景,知危和騰訊混元技術專家就該主題進行了溝通,并將場景聚焦在游戲行業(yè)。
技術層面,AI 生成 3D 的技術路線并未固定,比如模型架構是采用擴散模型、歸一化流還是 GAN。
騰訊混元也向知危表示:“ AI 3D 在技術層面存在的探索空間還非常大,在各方面都存在顯著提升模型能力的可能性。數(shù)據(jù)層面是老生常談,不僅僅是量,還包括如何挖掘已有數(shù)據(jù)里額外的有效信息?!?/p>
“ 生成模型現(xiàn)在主流的方案包括一階段或多階段,以及生成 3D 到底是使用格點相關的表達還是點云相關的表達,各自有各自的優(yōu)勢和局限。另外,生成模型如何引入正確的輸入條件,如何進行合理的 scale-up( 規(guī)?;瘮U展 ),仍然有很多值得探索的問題。”
“ 最后,如何對一個復雜模型或者場景模型進行有效的分部件生成并仍然保有可端到端學習的可能,也是一個重大的挑戰(zhàn)?!?/p>
盡管路線遠未成熟,但按照過往經(jīng)驗,不同方向的 AI 技術都有互相促進的可能。包括機器人、圖像生成等,大語言模型在各種領域都有作為基礎模型增強AI生成的潛力,比如智元機器人 GO-1 將視覺大語言模型接入決策模型中。
騰訊混元團隊認同這個思路:“ 模型的路線并非非此即彼,往往相互間都有可以借鑒之處,應該說現(xiàn)在技術的發(fā)展確實多面開花,如何集成各自優(yōu)秀的能力并去除各自的局限,也是一個重要的命題。”
對于 3D 生成,目前與大語言模型的結合主要在于開發(fā)工作流方面,而不是底層的模型層面,但已經(jīng)能帶來大量的收益。
首先是提升開發(fā)交互的體驗并降低使用門檻,騰訊混元表示:“ 大語言模型的快速發(fā)展確實對 AI 3D 生成產(chǎn)生了顯著的促進作用,尤其在自然語言交互的 3D 生成控制、場景邏輯推理等方面?!?/p>
“ 舉例子來講,在文本生成3D物體模型的場景,語言模型一方面可以加強文本到3D指令解析的準確性,將相對模糊的文本描述轉換為更具體的3D模型生成參數(shù)。” ?這對需求并不特別明確的開發(fā)者比較友好。
“ 另一方面,通過多步驟指令拆解可以生成可控性更高的 3D 模型?!?也就是說對于需求明確而復雜的開發(fā)者,借助大語言模型能提升復雜意圖理解能力,顯著降低開發(fā)者工作量。
描述 3D 物體的語言這一中間模態(tài)是非常關鍵的一部分,可以是專業(yè)化的自然語言,也可以是專業(yè)開發(fā)引擎的代碼。比如 Meta 提出的 SceneScript,可以將視覺輸入轉換為描述建筑布局、物體邊界框的語言,適用于 AR 應用;近期由于 Claude 3.7 Sonnet 的發(fā)布,社區(qū)里嘗試用 Claude+MCP+Blender 的組合來生成 3D 資產(chǎn),也是打開了新思路。這類方法專注于強化語言的精確性、邏輯性,以此保證生成的 3D 資產(chǎn)滿足實用需求,并避免了類似擴散模型生成 3D 資產(chǎn)的不可預測的各種小缺陷。
但騰訊混元向知危指出了這類方法的利弊:“ 結合語言模態(tài),對一些垂類場景( 比如建筑語言/CAD等 )可以給模型帶來比較有用先驗的幫助。不過對于更通用的場景,缺少足夠結構化的語言模態(tài)表示,語言模態(tài)更多只是起到輔助的作用?!?/p>
“ 至于 Claude+MCP+Blender 的組合,這是一個產(chǎn)品的解決思路,不是一個技術路線。從產(chǎn)品維度也存在其他解決方案的可能,這需要我們與行業(yè)界尤其是高價值游戲制作者進行碰撞逐步演進。從技術路線來講,仍然需要考慮模型的生成穩(wěn)定性、質量、組件分離和可編輯性?!?/p>
業(yè)內(nèi)也有不少圍繞通用的視頻大模型能否取代專用的 3D 生成模型的討論,特別是在谷歌 Genie 2、李飛飛團隊 World Labs 的開放世界游戲研究成果發(fā)布、以及近期視頻生成模型的飛躍式進步的背景下。類似地,GPT-4o 的圖像生成能力也實現(xiàn)了通用模型對專用模型的降維打擊。
但騰訊混元認為,這兩者還是有區(qū)別的,“ 視頻用于觀看,3D 資產(chǎn)用于實時交互、建模管線使用等。視頻大模型可以為 3D 生成模型帶來額外的收益,但是純粹的替代是不可行的。因為視頻模型到 3D,本質上是涉及一個 2D 到 3D 的重建過程。視頻難以處理自遮擋、幾何結構、拓撲等游戲管線里必須要解決的問題,因此無法替代 3D 生成模型。對于游戲管線需要的資產(chǎn),視頻模型可以用于做原型驗證,但不會用于實際的游戲實時操控。”
實際上,微軟就曾在 WHAM ( World and Human Action Model,世界與人類行為模型 ) 這項研究中探討了視頻模型用于原型驗證的可行性。視頻模型對于原型驗證提供了快速便捷的方案。
另外,WHAM 也特別強調了迭代實踐也就是交互聯(lián)動的重要性??焖俚爻尸F(xiàn)效果非常重要,WHAM 訪談的游戲開發(fā)者表示 “ 在我們看到正確的輸出之前,很難知道它是什么 ”。
騰訊混元也向知危強調了這一點,“ 一個優(yōu)秀的生成模型要擁有好的編輯性,有可控的質量和修改能力,這一點整個領域還處在早期。”
密集的交互聯(lián)動目前是 AI 深入人類工作流的最佳模式,完全交給 AI Agent 還是不夠可靠,可能導致錯誤難以追溯。
專業(yè)的游戲創(chuàng)作者真正關心的是微創(chuàng)新,“ 細節(jié)才是真正令人驚嘆的游戲體驗的關鍵 ”,他們需要快速地在不同的迭代之間進行動態(tài)的來回探索,以汲取靈感并嘗試融合不同元素的可能性。
當下不少 AI 產(chǎn)品都在強調 “ 一鍵生成 ”,但這是一種粗糙的創(chuàng)意探索方式,主要面向小白用戶。如果一個 AI 工具能夠限定自己的邊界,提供最具可靠性的中間輸出,并能無縫接入后續(xù)的非 AI 工具,或者能利用 AI 進行細微的迭代測試,才稱得上是 “ 成熟穩(wěn)重 ” 的 AI 產(chǎn)品設計,專業(yè)開發(fā)者才會為此買單,不過這對于 AI 模型的能力要求也很高。
騰訊混元補充道:“ 隨著大語言模型本身能力的持續(xù)提升,其可以輔助開發(fā)者生成更符合現(xiàn)實物理規(guī)律或規(guī)則的 3D 場景,并且可以與場景中的行為通過自然語言的方式進行交互聯(lián)動?!?/p>
AI 3D 生成在實際落地中如果不能直接用于開發(fā)生產(chǎn),也會將其用于輔助開發(fā)或 Demo 測試上,當然,相比視頻模型,AI 3D 生成的場景滲透更加深入,“ 這個問題需要區(qū)分游戲類型,對于輕小游戲,混元 3D 搭建了游戲 AI 3D 管線,生成的資產(chǎn)在輕/小游戲的場景,基本上已經(jīng)達到實際生產(chǎn)可用水平了。而在一些對建模精度要求更高的場景,AI 3D 生成的結果會應用于快速原型驗證、Demo 搭建以及一些背景、遠景物體的生成,可以縮短游戲迭代的周期。而對于高精場景的核心資產(chǎn)生成可用方面,我們還在繼續(xù)努力?!?/p>
綜上,AI 生 3D 技術路線尚未統(tǒng)一,產(chǎn)品特性比如多輪可編輯性等方面的局限性限制了產(chǎn)品的全面創(chuàng)新。而在不同類型的具體場景中,其應用深度也是有所區(qū)別的。
騰訊混元向知危表示:“ 當前全球 UGC 游戲行業(yè)的市場規(guī)模已經(jīng)超百億美元,年增速也在不斷增加。其中,AI 生成 3D 工具的滲透率在快速提升,主要的商業(yè)模式包括玩家游戲內(nèi)購以及在 UGC 內(nèi)容中植入品牌廣告進行盈利。玩家游戲內(nèi)購有較大的高利潤率,且用戶付費意愿較強,但依賴用戶活躍度和創(chuàng)作生態(tài);廣告盈利更適合用戶基數(shù)大的平臺,但在一定程度上會影響用戶體驗,可能導致用戶流失?!?/p>
UGC 只是娛樂,開發(fā)才是真試煉場。AI 3D 生成在專業(yè)開發(fā)群體中接受度不高,也是不爭的事實,比如生成人臉 3D 模型的拓撲精準度過低,很多開發(fā)者抱怨修改難度太大,甚至高于從零開始構建的成本,騰訊混元表示:“ 更具體來說,是小尺寸人臉拓撲精度較低。這是 AI 3D 生成的普遍現(xiàn)狀,這也是我們目前正在攻克的一個方向。”
“ 小尺寸人臉占身體比例過小,很大概率會非常模糊,所以用 AI 生成和從頭建模沒太大區(qū)別。當然對于一些大頭照,我們的模型還是可以獲得一個有一定細節(jié)的人臉,還是能加速建模流程的?!?/p>
綜合來看,從 UGC 應用到專業(yè)模型開發(fā),其技術難度從易到難,在業(yè)界看來,是一條有效的落地路徑,“ 從易到難的場景分類可以是游戲 AI 3D 生成逐步落地、反饋迭代的有效方式。逐步落地意味著從較簡單的場景開始,逐漸擴展到更復雜的場景,以確保技術的可行性和有效性。這種漸進式的方法可以幫助研發(fā)團隊逐步適應和應用游戲 AI 3D 生成技術,同時從用戶和市場的反饋中不斷改進和迭代。
“ 其它落地路線可能是針對游戲開發(fā)痛點進行單點突破,并展示游戲 AI 3D 生成技術的應用案例和演示,以證明其潛力和效果,吸引更多業(yè)務與用戶進行合作。”
而基于騰訊混元的落地經(jīng)驗,他們希望構建 B 端、C 端之間的反饋循環(huán),“ 我們嘗試從 B 端滲透 C 端,先瞄準 B 端的場景,因為 B 端是主要的 3D 消費途徑,立足于基礎模型瞄準 B 端的實際應用需求,我們也逐漸彌補了沒有覆蓋到的 3D 矩陣能力。在滿足了 B 端使用需求的前提下,我們開始探索 C 端的一些應用場景,通過 C 端的數(shù)據(jù)積累與反饋閉環(huán),持續(xù)驗證市場需求,可以再反哺回 B 端場景完成價值深化。”
隨著業(yè)余愛好者的社區(qū)活躍度愈發(fā)高漲,當前,游戲領域的 AI 3D 生成的用戶、創(chuàng)作者、開發(fā)者等角色界限逐漸模糊。
騰訊混元表示也希望順應這個趨勢,用開源工具進一步助力用戶和開發(fā)者參與進來。不僅是游戲開發(fā)者,騰訊混元 3D 的開源還吸引了工業(yè)設計師、具身智能研究者等多方參與,推動技術從游戲擴展至自動駕駛、影視制作等場景。
提及騰訊混元 3D 開源的初衷,騰訊混元表示:“ 在 3D 生成領域,此前一直缺乏高質量的開源基礎模型,導致學術研究與工業(yè)應用之間存在斷層。我們也很重視用戶反饋,例如社區(qū)提出的輕量版部署、加速、多視圖生成、貼圖優(yōu)化、減面等需求已融入 Hunyuan3D 2.0 并開源。”
“ 下一步計劃,將繼續(xù)圍繞生成質量和功能性展開?!?/p>
騰訊混元沒有食言,新發(fā)布的 v2.5 版本更新恰好帶來了生成質量的提升。
在此,知危也和各位玩家、社區(qū)開發(fā)者繼續(xù)期待一波騰訊混元 3D 未來的新成果。
撰文:流大古 編輯:大餅
本文由人人都是產(chǎn)品經(jīng)理作者【知?!?,微信公眾號:【知危】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!