無限暖暖:AI 數(shù)字人微表情背后的技術(shù)密碼與未來展望
前段時間,疊紙游戲的《無限暖暖》正式公測,細(xì)膩生動的人物表現(xiàn),其實是大量用了數(shù)字人的技術(shù)。這篇文章,我們就來分析一下數(shù)字人技術(shù)在微表情下的處理。
隨著《無限暖暖》的公測,游戲中暖暖細(xì)膩生動的表情變化,她的眼神流轉(zhuǎn)、嘴角微合,眉毛挑動,無數(shù)的微表情使她仿佛是一個有著真實情感和生命的少女。讓玩家們深刻感受到虛擬角色所蘊含的無限魅力。這不僅彰顯了疊紙游戲公司在人物表情刻畫上的卓越實力,更引發(fā)了我們對 AI 數(shù)字人與人類情感互動的深度思考。
不管在動畫還是在游戲中,能夠用3D技術(shù)讓寫實風(fēng)格的角色栩栩如生的內(nèi)容產(chǎn)品,依然是十分缺位的。這幾年 AI 數(shù)字人正逐漸走進我們的生活。AI 數(shù)字人正逐漸融入我們的生活,從虛擬助手到娛樂角色,它們不斷拓展著我們對人機交互的認(rèn)知邊界。然而,一個不容忽視的挑戰(zhàn)隨之而來 —— 恐怖谷效應(yīng)。當(dāng) AI 數(shù)字人的外觀和行為接近人類,但又無法完全達到人類的自然和真實時,可能會引發(fā)人們內(nèi)心的不安和不適。如何巧妙地跨越這一障礙,實現(xiàn) AI 數(shù)字人與人類之間更加自然、深入的情感共鳴,成為了科技領(lǐng)域亟待解決的重要課題。
圖源:《閃耀暖暖》游戲PV
一、疊紙游戲人物表情刻畫的出色之處
疊紙游戲在3D人物表情刻畫方面表現(xiàn)卓越,以《無限暖暖》為例,暖暖能依據(jù)不同情境展現(xiàn)出多樣且精準(zhǔn)的表情動作。開心時笑容燦爛、眼含笑意;思考時眉頭微蹙、眼神專注;驚訝時雙目圓睜、嘴巴微張,每個表情都生動傳達出當(dāng)下情緒。哪怕在定格拍照時,也會像真人一樣充滿各種小動作,而不是僵硬不動。
(圖源:《無限暖暖》游戲?qū)崣C錄制)
《戀與深空》借助全 3D 建模,讓人物的神態(tài)動作更加逼真自然,復(fù)雜情感得以細(xì)膩呈現(xiàn),如角色在細(xì)微的情感交流時的,掩飾,假裝,糾結(jié)與掙扎,通過面部表情的細(xì)微變化展現(xiàn)得淋漓盡致。
(圖源:《戀與深空》游戲?qū)崣C錄制)
《閃耀暖暖》憑借精美建模與豐富表情系統(tǒng),使暖暖在不同場景中展現(xiàn)出相應(yīng)情感,搭配時自信滿滿,面對挑戰(zhàn)時堅毅果敢,哪怕是待機時,也會有眼神和微表情變化,極大增強了游戲沉浸感。
(圖源:《閃耀暖暖》游戲?qū)崣C錄制)
“我們在意每一個眼神的含義,每一個微表情的潛臺詞?!薄B紙團隊
疊紙公司在面部動捕技術(shù)方面采用了多種先進設(shè)備和方法,以確保捕捉到的角色表情和動作盡可能真實。尤其特別關(guān)注角色的眼神捕捉,因為眼神是傳達角色情感的重要手段。通過面部動捕技術(shù),捕捉到動捕演員的眼神變化,并將其應(yīng)用到3D角色上,使角色能夠更準(zhǔn)確地反映出細(xì)膩的情感和意圖,更有真人感,活人感。AI 技術(shù)上,他們利用深度學(xué)習(xí)技術(shù)對面部表情進行捕捉和分析,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別人臉和動畫角色表情,提取角色表情信息,獲得動畫角色骨骼參數(shù),并結(jié)合人臉幾何信息對臉部關(guān)鍵點骨骼參數(shù)進行修正。
他們在面部動捕技術(shù)上的應(yīng)用不僅提升了游戲中的逼真度,還通過細(xì)致的表情捕捉和眼神分析,增強了角色的情感表達能力,使得游戲角色更加生動和真實。疊紙團隊在 3D 人物微表情研究上成果顯著?!稇倥c深空》的開發(fā)過程中,疊紙團隊注重面部表面材質(zhì)和陰影效果,配合骨骼動畫、法線紋理和變形體修型,讓微表情動作更加逼真。
(圖:疊紙公司的動捕設(shè)施)
二、AI 賦能的 3D 人物在人設(shè)和情感表達方面的挑戰(zhàn)
1. 情感真實性難題
AI 數(shù)字人在模擬人類情感真實性方面面臨著巨大挑戰(zhàn)。人類的情感是內(nèi)心深處復(fù)雜體驗與對外界感知的綜合反映,其產(chǎn)生機制涉及生理、心理和社會等多個層面的相互作用,是一個極為復(fù)雜且內(nèi)在驅(qū)動的過程。例如,一個人在經(jīng)歷失去親人的痛苦時,不僅僅是表面上的悲傷表情,還伴隨著內(nèi)心深處的痛苦、無助、回憶等多種復(fù)雜情緒的交織,這些情緒會通過微妙的微表情、語氣變化、肢體語言等多種方式自然流露。
然而,AI 數(shù)字人要準(zhǔn)確模擬這種真實情感,就必須深入理解人類情感的本質(zhì)和產(chǎn)生根源。目前,盡管 AI 技術(shù)在數(shù)據(jù)處理和模式識別方面取得了一定進展,但在理解人類情感的微妙之處仍存在很大困難。AI 數(shù)字人主要依賴大量數(shù)據(jù)訓(xùn)練來學(xué)習(xí)情感表達,但數(shù)據(jù)往往只能反映表面現(xiàn)象,難以捕捉情感背后的深層次原因和復(fù)雜的心理變化。例如,在面對同樣的情境時,不同人可能會因為個人經(jīng)歷、性格特點和文化背景的差異而產(chǎn)生截然不同的情感反應(yīng),而 AI 數(shù)字人很難像人類一樣根據(jù)具體情境進行靈活而真實的情感表達。
2. 情感連貫性考驗
人類的情感在不同情境和時間中具有連貫性,這是由個人的性格和長期形成的情感傾向所決定的。一個樂觀開朗的人,在大多數(shù)情況下都會展現(xiàn)出積極向上的情感反應(yīng),無論是面對日?,嵤逻€是重大挑戰(zhàn),他們的樂觀態(tài)度會貫穿始終,在表情、語言和行為上都呈現(xiàn)出一致性。比如,在遇到困難時,他們可能會微笑著鼓勵自己和他人,積極尋找解決問題的方法,這種積極的情感狀態(tài)在不同場景中得以延續(xù)。
相比之下,AI 數(shù)字人要建立穩(wěn)定的人設(shè)和情感邏輯并非易事。它們需要在各種不同的場景中做出符合預(yù)設(shè)人設(shè)的情感表達,否則就會給人一種不真實、不穩(wěn)定的感覺。例如,一個被設(shè)定為溫柔善良的 AI 數(shù)字人,如果在某些場景中突然表現(xiàn)出冷漠或暴躁的情緒,就會破壞其整體人設(shè),降低用戶對其的信任和代入感。目前,AI 數(shù)字人在情感連貫性方面的表現(xiàn)還不盡如人意,難以像人類一樣在不同情境下保持一致且自然的情感反應(yīng)。
3. 人設(shè)復(fù)雜性增加表達難度
成功的人設(shè)包含豐富的性格特點、背景故事和價值觀,這些元素需要在不同情境中通過微表情和情感表達自然地體現(xiàn)出來。不同的微表情和肢體語言能夠反映出一個人的性格特征和當(dāng)下情緒。一個自信果斷的人在做決策時,可能會微微點頭、眼神堅定,同時表情嚴(yán)肅專注,這些微表情和肢體動作共同展現(xiàn)出其果斷的性格特點。
對于 AI 數(shù)字人來說,要準(zhǔn)確展現(xiàn)人設(shè)的復(fù)雜性,需要具備高度的智能和靈活性。它們必須能夠根據(jù)不同情境和交互內(nèi)容,精準(zhǔn)地選擇合適的微表情和情感表達方式。然而,目前的 AI 技術(shù)在理解和處理人設(shè)的復(fù)雜性方面還存在很大的局限性,很難像人類一樣根據(jù)豐富的內(nèi)在特質(zhì)進行自然而恰當(dāng)?shù)那楦斜磉_,從而在一定程度上影響了其在復(fù)雜人設(shè)塑造方面的能力。
三、虛擬數(shù)字人技術(shù)架構(gòu)與關(guān)鍵技術(shù)
1. 技術(shù)架構(gòu)概述
虛擬數(shù)字人基礎(chǔ)技術(shù)架構(gòu)涵蓋 “五橫兩縱”?!拔鍣M” 包括人物生成、人物表達、合成顯示、識別感知、分析決策等五大技術(shù)模塊,用于數(shù)字人制作交互。人物生成在 2D 和 3D 數(shù)字人中有不同體現(xiàn),3D 數(shù)字人需額外使用三維建模技術(shù),當(dāng)前靜態(tài)掃描建模為主流,動態(tài)光場三維重建技術(shù)雖具優(yōu)勢但尚未普及。人物表達包含語音生成和動畫生成,動畫生成中的驅(qū)動技術(shù)以智能合成和動作捕捉為主要生產(chǎn)方式,渲染技術(shù)進步使數(shù)字人皮膚紋理更真實。合成顯示涉及終端顯示技術(shù),識別感知包括語音語義識別、人臉識別、動作識別等,分析決策依靠知識庫、對話管理等?!皟煽v” 則指 2D、3D 數(shù)字人,二者在技術(shù)要求和呈現(xiàn)效果上存在差異,3D 數(shù)字人相對 2D 數(shù)字人在視覺效果和交互體驗上更具優(yōu)勢,但制作成本和技術(shù)難度也更高。
2. 建模技術(shù):從靜態(tài)到動態(tài)的發(fā)展
早期靜態(tài)掃描建模技術(shù)以結(jié)構(gòu)光掃描重建為主,精度可達 0.1 毫米級,但掃描時間長,在友好度和適應(yīng)性方面欠佳,主要用于工業(yè)生產(chǎn)、檢測領(lǐng)域。如今,相機陣列掃描重建成為人物建模主流方式,毫米級精度且高速拍照掃描,滿足數(shù)字人掃描重建需求,國際上如 IR、Ten24 等公司將其商業(yè)化用于好萊塢大型電影制作,國內(nèi)凌云光也成功應(yīng)用于電影、游戲、虛擬主播等項目。動態(tài)光場重建是最新深度掃描技術(shù),可忽略材質(zhì)直接采集三維世界光線并實時渲染動態(tài)表演者模型,包含人體動態(tài)三維重建和光場成像兩部分,具有采集數(shù)據(jù)全面、光影效果真實等優(yōu)勢,雖目前技術(shù)尚未完全成熟,但已成為數(shù)字人建模重點發(fā)展方向,微軟、谷歌等公司積極開展相關(guān)研究,國內(nèi)清華大學(xué)、商湯科技等也在同步推進。
(根據(jù)用戶臉部生成的車載智能助手 圖源:百度數(shù)字人)
3. 驅(qū)動技術(shù):實現(xiàn)生動動作的關(guān)鍵
嘴型動作的智能合成已應(yīng)用于 2D 和 3D 虛擬數(shù)字人,其底層邏輯是建立在輸入文本到輸出音頻與視覺信息的關(guān)聯(lián)映射上,通過對采集數(shù)據(jù)的模型訓(xùn)練實現(xiàn)。除嘴型動作外,其他動作如眨眼、微點頭、挑眉等目前多采用隨機策略或腳本策略循環(huán)播放預(yù)先錄制好的視頻 / 3D 動作,未來有望通過智能分析技術(shù)實現(xiàn)自動化。動作捕捉技術(shù)是目前最成熟且呈現(xiàn)效果最好的動作生產(chǎn)方式,根據(jù)實現(xiàn)方式不同可分為光學(xué)式、慣性式、電磁式及基于計算機視覺的動作捕捉。光學(xué)式動作捕捉通過對目標(biāo)上特定光點監(jiān)視和跟蹤完成,基于 Marker 的光式動作捕捉常用,精度高但造價高昂且對環(huán)境要求高;慣性動作捕捉基于慣性測量單元 IMU,價格相對低廉但精度較低且會產(chǎn)生累計誤差;基于計算機視覺的動作捕捉近年來興起,通過采集及計算深度信息完成,精度較高且被檢測對象無需穿戴裝備,但受外界環(huán)境影響大,算法開發(fā)難度也較大。
( 圖源:阿里云數(shù)字人官網(wǎng))
4. 渲染技術(shù):突破恐怖谷效應(yīng)
渲染技術(shù)分為實時渲染和離線渲染。實時渲染圖形數(shù)據(jù)實時計算與輸出,每秒至少渲染 30 幀,計算資源有限,渲染質(zhì)量欠佳,適用于對實時性要求高但對畫面質(zhì)量要求相對較低的場景,如小型 APP 等,常用引擎有 Unreal 引擎和 Unity 引擎等。離線渲染圖像數(shù)據(jù)非實時計算與輸出,渲染時間長但計算資源豐富、計算量大,渲染質(zhì)量高,適用于對畫面質(zhì)量要求極高的場景,如電影特效制作等。隨著 PBR(Physically Based Rendering)渲染技術(shù)進步和重光照等新型渲染技術(shù)出現(xiàn),數(shù)字人皮膚紋理更真實,突破了恐怖谷效應(yīng),使虛擬數(shù)字人在外觀和動作上更接近人類,提升了用戶的接受度和沉浸感。
(百度數(shù)字人葉悠悠 圖源:小侃星球app截圖)
四、虛擬數(shù)字人未來發(fā)展趨勢與智能座艙應(yīng)用前景
1. 總體發(fā)展趨勢
未來虛擬數(shù)字人制作技術(shù)將朝著更加簡單、一體化、自動化的方向發(fā)展,采集制作流程有望實現(xiàn)簡單化、一體化,通過迭代式提升真實感。例如,同步獲取模型、身體、表情等所有數(shù)據(jù),無需穿戴專業(yè)傳感設(shè)備,使數(shù)字人在特定環(huán)境下與真人難以分辨,人們可更加自然地與其交流互動。全雙工技術(shù)將使數(shù)字人具備一次喚醒、多輪對話、智能糾錯等能力,實現(xiàn)多場景、多領(lǐng)域的融合,交互方式更加智能化,逐步具備 “看”“聽”“說”“懂” 等全方位能力,緊跟時代潮流,深入融入影視、金融、文旅等各個領(lǐng)域,充分發(fā)揮應(yīng)用價值,其市場價值也將不斷得到釋放。同時,隨著 90 后、Z 時代消費者逐漸擁有自主消費能力,他們對二次元、動漫人物形象的消費水平穩(wěn)步提升,為虛擬數(shù)字人產(chǎn)業(yè)帶來新的發(fā)展機遇,諸多品牌也樂于與虛擬數(shù)字人合作,挖掘其商業(yè)價值。
2. 在智能座艙中的應(yīng)用前景
在智能座艙領(lǐng)域,AI 數(shù)字人具有廣闊的應(yīng)用前景。從交互體驗層面來看,智能座艙車載數(shù)字人可以借助高精度 AI 檢測技術(shù)實時捕捉乘客動作和表情,實現(xiàn)與數(shù)字形象的實時互動,使乘客可通過肢體動作或語音指令與虛擬角色互動,享受沉浸式娛樂體驗,增強駕駛過程中的情感陪伴感,減少疲勞。
在功能拓展方面,未來 AI 數(shù)字人將成為智能座艙的全方位智能助手,不僅能處理簡單任務(wù),如接電話、播放音樂,還能承擔(dān)復(fù)雜任務(wù),如根據(jù)實時路況、駕駛者偏好和車輛狀態(tài)提供個性化導(dǎo)航建議,在車輛故障或保養(yǎng)時及時提醒并提供解決方案和服務(wù)信息。
從視覺呈現(xiàn)角度,全息投影技術(shù)將為 AI 數(shù)字人帶來全新展現(xiàn)形式,如車載全息數(shù)字人有望成為 “人 — 車 — 家” 三屏融合的重要一環(huán),基于云端及本地動態(tài)行為數(shù)據(jù)庫,根據(jù)不同場景驅(qū)動虛擬人形象,營造充滿科技感和未來感的氛圍。
此外,AI 數(shù)字人還將在智能座艙的個性化定制方面發(fā)揮重要作用,用戶可根據(jù)喜好定制其形象、聲音、性格等特征,使其成為專屬智能伴侶,同時在提升駕駛安全性方面也具有巨大潛力,可精準(zhǔn)監(jiān)測駕駛者狀態(tài),在疲勞或不適時發(fā)出警告并采取安全措施,有效降低交通事故發(fā)生率。
(圖:領(lǐng)克的AI虛擬助理JOJO在聆聽、發(fā)言時都有相應(yīng)的動作適配,形象生動)
五、總結(jié)
微表情和情感表達在人類交流和心理學(xué)研究中占據(jù)重要地位,相關(guān)研究成果為 AI 數(shù)字人的發(fā)展提供了重要參考。疊紙游戲在人物表情刻畫上的成功經(jīng)驗,展示了當(dāng)前在微表情呈現(xiàn)方面的較高水平。然而目前,AI 數(shù)字人在微表情和情感表達上還是有很大的不足,仍面臨諸多挑戰(zhàn)。未來,可以借鑒游戲業(yè)的先進經(jīng)驗,更深入的結(jié)合心理學(xué)研究成果,進一步探索人類情感產(chǎn)生和表達的內(nèi)在機制,以及先進的技術(shù)手段,如持續(xù)優(yōu)化建模、驅(qū)動和渲染技術(shù)等,不斷提升 AI 數(shù)字人的情感表達能力。
從行業(yè)發(fā)展來看,虛擬數(shù)字人產(chǎn)業(yè)已呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,市場規(guī)模不斷擴大,技術(shù)不斷創(chuàng)新,應(yīng)用領(lǐng)域日益廣泛。隨著技術(shù)的不斷進步和市場需求的持續(xù)增長,AI 數(shù)字人有望在更多領(lǐng)域發(fā)揮重要作用,為人們帶來更加真實、自然、富有情感的交互體驗,實現(xiàn)與人類更加深入的情感共鳴,最終跨越恐怖谷效應(yīng),成為人類生活和工作中不可或缺的一部分。疊紙團隊在技術(shù)研發(fā)上的不斷探索和創(chuàng)新,為游戲行業(yè)及虛擬數(shù)字人產(chǎn)業(yè)的發(fā)展提供了寶貴的借鑒和啟示。
那么,你認(rèn)為 AI 數(shù)字人在未來的發(fā)展道路上,還會在哪些領(lǐng)域產(chǎn)生深遠影響?在提升情感表達能力方面,還有哪些技術(shù)與人文的深度融合?歡迎大家在評論區(qū)分享自己的見解,讓我們共同見證 AI 數(shù)字人的成長與變革,一起探索這個充滿無限可能的數(shù)字未來!
本文由 @INFP怡伶設(shè)計 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
它玩起來要的配置好高的哇,能不能優(yōu)化一下這方面