【萬(wàn)字長(zhǎng)文】虛擬人漫談|技術(shù)篇
編輯導(dǎo)語(yǔ):近些年CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展,催生了虛擬人概念的出現(xiàn)。虛擬人到底是什么呢?本文作者從身體、靈魂、世界、人設(shè)等方面對(duì)虛擬人進(jìn)行了分析,一起來看一下吧。
了解虛擬人賽道產(chǎn)品相關(guān)信息請(qǐng)看我的前兩篇文章:《虛擬人漫談|開拓:產(chǎn)品篇(上)格局與環(huán)境》、《虛擬人漫談|開拓:產(chǎn)品篇(下)產(chǎn)品與商業(yè)》。
01 虛擬人,新科技下的創(chuàng)世神話
想象一下,你是一個(gè)創(chuàng)世神,擔(dān)負(fù)著創(chuàng)世的KPI,你要做點(diǎn)什么?
我想,你大概應(yīng)該先構(gòu)思好主角,再扔給主角一個(gè)世界。
主角首先是一個(gè)擁有大腦軀干四肢,眼睛鼻子嘴的生物,姑且把這種生物叫做“人”。
但僅僅這樣還不夠,每個(gè)人的身上還要加一點(diǎn)點(diǎn)靈魂,有的多一點(diǎn)風(fēng)趣幽默,有的多一點(diǎn)審慎優(yōu)雅,各有不同,才會(huì)豐富多彩。
最后,再給他們一個(gè)世界,賦予天空和大地,賦予植被和海洋,再來點(diǎn)可愛的小動(dòng)物……這個(gè)創(chuàng)世任務(wù)的MVP,就差不多算完成了。
在人類的幼年時(shí)期,各個(gè)文明流域都相對(duì)獨(dú)立地出現(xiàn)了創(chuàng)世神話,上古中國(guó)有盤古開天辟地,女媧摶土造人;《圣經(jīng)》中有上帝七天創(chuàng)世,并在第六天創(chuàng)造了亞當(dāng)夏娃的故事……一直以來,人類都對(duì)自己的起源充滿了好奇與想象,創(chuàng)世神話,是人類對(duì)自身起源浪漫探索的開始。
這種對(duì)自身充滿探索和向往的欲望一直固化在我們的集體潛意識(shí)里,而在科技日漸發(fā)達(dá)的今天,我們正逐漸嘗試用科技來擬合一個(gè)“人”的誕生過程,這就是“虛擬人”的概念。
“虛擬人”并不是一個(gè)常規(guī)意義的有血有肉的人,而是一個(gè)綜合了多類技術(shù)而形成的,生活在數(shù)字世界中的“人”。虛擬人概念的催生,也正是得益于近些年來CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展。虛擬人是一個(gè)技術(shù)的綜合體,是人類用科技擬合自身的浪漫探索與想象。
02 虛擬人是什么
虛擬人是什么呢?人類理解一個(gè)事物的時(shí)候往往喜歡首先探究它的概念。對(duì)于虛擬人這個(gè)概念,很多機(jī)構(gòu)試圖給出它的定義,或者是分類,比如有的認(rèn)為可以分成“虛擬人”、“數(shù)字人”、“數(shù)字虛擬人”,有的認(rèn)為可以分為“meta hunman”和“AI being”等等。
我本人沒有那么權(quán)威,但也想給虛擬人下一個(gè)定義,這個(gè)定義是什么呢?那就是:當(dāng)我提起“虛擬人”這個(gè)概念的時(shí)候,你的腦海里浮現(xiàn)出了什么?Bingo,那就是虛擬人!
其實(shí),虛擬人本質(zhì)上是對(duì)人的一種模擬,對(duì)“人”這個(gè)概念的解構(gòu),能幫助我們更好地認(rèn)識(shí)虛擬人。如何賦予虛擬人更有價(jià)值的生命,也許就要先從對(duì)“人”的探索開始。接下來,我們就從一個(gè)“人”本身來出發(fā),看看人由哪幾個(gè)關(guān)鍵的部分組成。搞清楚了這個(gè)之后,針對(duì)每一個(gè)部分,再來聊一聊,虛擬人是如何通過多種多樣的技術(shù)來擬合人類的。
03 「身體+靈魂」+「世界+人設(shè)」
何為人?針對(duì)這個(gè)問題,我先拋出一個(gè)我認(rèn)知里的公式:
人=「身體+靈魂」+「世界+人設(shè)」
身體和靈魂,靈與肉,這是組成生命的唯二兩個(gè)部分,我想這個(gè)結(jié)論應(yīng)該是大多數(shù)人都能認(rèn)可的。我這里說的身體可以譯為body,主要是指我們自身上“有形”的那一部分,包括我們的軀干、四肢、手腳,以及看的見的表情動(dòng)作等;相對(duì)的,靈魂可以譯為soul,這里主要是指我們身上那些“無(wú)形”的部分,例如我們的感知、意識(shí)、知識(shí)、感情等。
有了身體與靈魂,我們可以說已經(jīng)得到了一個(gè)“人”了,但僅僅這樣還是不夠的。馬克思說過,“人是一切社會(huì)關(guān)系的總和”。一個(gè)人的社會(huì)屬性很重要,對(duì)于虛擬人來說也是如此。
對(duì)于虛擬人的社會(huì)屬性,我也把它簡(jiǎn)單概括為兩個(gè)方面:世界和人設(shè)。世界代表外部環(huán)境,虛擬人也需要一個(gè)生活的空間,一個(gè)舞臺(tái),這是外界給TA的;人設(shè)代表內(nèi)部環(huán)境,虛擬人也需要有社會(huì)屬性,需要合適的外貌、技能、性格……這是TA回饋給外界的。
那么,以上這四個(gè)元素是如何作用的,從技術(shù)的角度又是如何實(shí)現(xiàn)的,且聽我細(xì)細(xì)道來。
1. 身體
從唯物的角度來看,身體是人必不可少的組成部分。這里,我把身體這個(gè)元素進(jìn)一步拆成兩個(gè)要素,分別是:靜態(tài)+動(dòng)態(tài)。
1)靜態(tài)
指人的外觀,對(duì)于真人而言,外觀有高矮胖瘦、膚色、男女等區(qū)別,而對(duì)于虛擬人而言,還增加了“畫風(fēng)”這一維度,虛擬人的外觀可以包括二次元、3D、超寫實(shí),甚至賽博朋克等,目前,虛擬人的外形主要靠美術(shù)設(shè)計(jì)師和3D建模師共同實(shí)現(xiàn)。
2)動(dòng)態(tài)
指人的動(dòng)作,一般來說,人的動(dòng)態(tài)分為三個(gè)主要部分:
- 軀體動(dòng)作
- 面部表情
- 口型動(dòng)作
這一點(diǎn)對(duì)于真人和虛擬人都是比較類似的(虛擬人暫時(shí)不涉及動(dòng)耳朵、動(dòng)頭皮這種高級(jí)藝能)。虛擬人的動(dòng)態(tài)主要依靠驅(qū)動(dòng)技術(shù)來實(shí)現(xiàn),目前驅(qū)動(dòng)技術(shù)主要有真人驅(qū)動(dòng)和AI驅(qū)動(dòng)兩種流派。
2. 靈魂
就像電影《心靈奇旅》里演的那樣,靈魂也是一個(gè)人的重要組成部分。對(duì)于虛擬人來說,靈魂主要是通過AI技術(shù)來打造的。這里,我把靈魂也分成了幾個(gè)要素:
1)感知
感知是人最生物性的層面,主要是和我們的五感有關(guān),具體來說就是看、聽、說三個(gè)部分,分別由眼睛、耳朵、嘴來負(fù)責(zé),結(jié)合到AI能力,就是CV、ASR、TTS。
2)認(rèn)知
認(rèn)知是在感知的基礎(chǔ)上進(jìn)一步形成的思考能力,這里我把認(rèn)知能力進(jìn)一步分成兩個(gè)方面,分別是理性的認(rèn)知能力和感性的認(rèn)知能力,其中,理性的認(rèn)知還可進(jìn)一步分為知識(shí)儲(chǔ)備、理解、決策三個(gè)層級(jí)的能力,對(duì)應(yīng)于AI中的KG、NLP、ML;感性的認(rèn)知主要指的是利用AI構(gòu)建的情感識(shí)別功能。
3)創(chuàng)造
就像我們小學(xué)的時(shí)候會(huì)先學(xué)習(xí)漢字,學(xué)習(xí)造句,再學(xué)習(xí)寫作文一樣,創(chuàng)造是更高一級(jí)的智力活動(dòng),只有在進(jìn)行過大量的學(xué)習(xí)之后,才能進(jìn)行有效的創(chuàng)造,人如此,虛擬人亦如此,虛擬人的創(chuàng)造主要依賴于生成類的AI算法來進(jìn)行輸出。
3. 世界
對(duì)于一個(gè)人,我們要給他一個(gè)世界,一個(gè)舞臺(tái),這個(gè)人才算有了一個(gè)全面展示自己的空間,虛擬人亦如此,這個(gè)世界就是虛擬人生活的空間。關(guān)于世界,這里我也(強(qiáng)行)分成兩個(gè)要素:
1)渲染
渲染就是讓這個(gè)虛擬的“人”呈現(xiàn)在我們面前,渲染技術(shù)分為離線渲染、實(shí)時(shí)渲染等,渲染技術(shù)的選型會(huì)直接影響虛擬人的呈現(xiàn)效果,你看到的是4k還是1080p與它有直接關(guān)系,渲染技術(shù)很大程度上決定了虛擬人演出的舞臺(tái)效果。
2)終端
虛擬人沒有物質(zhì)性的實(shí)體,目前階段我們必須借助終端才能看到它,現(xiàn)在可以承載虛擬人終端的設(shè)備數(shù)量越來越多,移動(dòng)端、IoT、VRAR等都有大量的空間。在未來,虛擬人技術(shù)也有可能真正和實(shí)體機(jī)器人進(jìn)行結(jié)合,變身成真正幾乎“以假亂真”的智能體。
4. 人設(shè)
我們總說明星有人設(shè),其實(shí)每個(gè)人都有人設(shè)。人生在世,誰(shuí)又能時(shí)時(shí)刻刻保持自己永遠(yuǎn)都是一個(gè)耿直的real boy/real girl呢?我們?cè)诿鎸?duì)家人、朋友、同事時(shí),甚至?xí)Q上不同的人設(shè)。對(duì)于虛擬人而言,這也是一樣的,而且由于虛擬人現(xiàn)在還比較「笨」,不能像真實(shí)的小精靈鬼們一樣多種人設(shè)無(wú)縫切換,因此,對(duì)于每一個(gè)虛擬人而言,打造一個(gè)專有場(chǎng)景的專有人設(shè)至關(guān)重要。
人設(shè)就是面向社會(huì)和公眾在特定場(chǎng)景下所表現(xiàn)出來的品牌、IP等,一個(gè)好的人設(shè),不僅僅需要合適的外形風(fēng)格、肢體動(dòng)作,也需要合適的知識(shí)儲(chǔ)備、談吐風(fēng)格、甚至創(chuàng)作風(fēng)格。人設(shè)不是一個(gè)技術(shù)類的概念,它更偏向于產(chǎn)品和運(yùn)營(yíng)方面。
運(yùn)營(yíng)好一個(gè)IP類虛擬人,和經(jīng)紀(jì)公司運(yùn)營(yíng)一個(gè)明星的道理是一樣的,甚至有更大的難度,而擁有好的人設(shè)IP運(yùn)營(yíng)sense的企業(yè)在虛擬人賽道甚至元宇宙時(shí)代里脫穎而出的概率也是極大的。
以上,就解釋清楚了我自己對(duì)于虛擬人定義的邏輯框架:
人=「身體+靈魂」+「世界+人設(shè)」
其邏輯腦圖如下圖所示
接下來,我將依照這個(gè)邏輯分別簡(jiǎn)單展開陳述一下相關(guān)的技術(shù)向內(nèi)容。
04 身體
「身體」又被我進(jìn)一步分成了兩個(gè)要素:靜態(tài)與動(dòng)態(tài)。靜態(tài)就是我們的外殼,包括頭、軀干、四肢等,動(dòng)態(tài)就是身體的動(dòng)作,面部的表情,說話時(shí)的嘴形等。
對(duì)于一個(gè)真實(shí)的人來說,這一切都是來的自然而美妙,我們的身體由母親孕育而來,體內(nèi)有無(wú)數(shù)的神經(jīng)細(xì)胞控制著每一塊肌肉的運(yùn)動(dòng),身體和靈魂是一個(gè)有機(jī)的整體。但對(duì)于虛擬人而言,這一切就沒那么自然了,全要倚賴人類的設(shè)計(jì)。其中,靜態(tài)外形的誕生主要依賴于各種建模技術(shù);動(dòng)態(tài)的產(chǎn)生則要依賴各類驅(qū)動(dòng)技術(shù)。
對(duì)于虛擬人而言,想讓靜態(tài)和動(dòng)態(tài)聯(lián)動(dòng)起來,二者之間必須的一個(gè)橋梁就是綁定,通過對(duì)身體各個(gè)骨點(diǎn)的綁定,來達(dá)到控制各個(gè)身體部分動(dòng)起來的目的,如下圖所示:
1. 靜態(tài)
靜態(tài)外形的誕生主要依賴于各種建模技術(shù),目前的建模方式主要有以下幾種:
- 3D軟件建模
- 儀器采集建模
- 自動(dòng)化建模
建模方式一:3D軟件建模
指通過3D建模軟件來人工塑造出3D的模型,該方式人工制作周期較長(zhǎng),但效果可控,是目前應(yīng)用最廣泛的建模手段。
常用的3D建模軟件有很多,主要有以下幾類:
- 傳統(tǒng)3D建模:3Dmax、Maya、blender等
- 雕刻軟件:zbrush、blender等
- 程序化建模:houdini等
其中,傳統(tǒng)3D軟件主要負(fù)責(zé)制作低模,雕刻軟件可以輔助制作高模,限于篇幅原因,這里不做過多展開,總之,低模的特點(diǎn)是面數(shù)少,視覺效果一般,但所占計(jì)算資源少,運(yùn)行速度快;高模則正好相反,面數(shù)多,視覺效果好,但占用資源多,容易卡頓。
下面這塊磚頭很好的解釋了高模和低模的區(qū)別(雕刻軟件的「雕刻」二字含義就是精細(xì)的雕出坑坑洼洼的細(xì)節(jié),使其看上去更真實(shí))。
現(xiàn)代建模流程中一般會(huì)使用“烘培”的方法,簡(jiǎn)單來說就是底層結(jié)構(gòu)是低模,但是在低模的面上貼上高模的貼圖,類似于「披著羊皮的狼」,達(dá)到一種看上去視覺效果很好,運(yùn)行速度又快的效果。
手工建模有多種工作流程,主要的可以分成傳統(tǒng)模式、次世代模式兩種:
- 傳統(tǒng)模式:大概流程是先作低模,然后直接手工畫貼圖,結(jié)構(gòu)上的材質(zhì)等信息全靠人手作畫,這種方式只能做出比較卡通的模型,做不出特別精致的效果。
- 次世代模式:大概流程是先做低模,然后用zbrush等軟件做雕刻使其變成高模,然后再把各個(gè)面的貼圖拆分,再烘焙回去,這樣一來,模型結(jié)構(gòu)是低模的,上面的貼圖是逼真的高模渲染出來的,因此看上去既真實(shí),又不卡內(nèi)存,次世代模式可以做出非常精致的模型。
3D建模技術(shù)涉及到計(jì)算機(jī)圖形學(xué)、3D美術(shù)等多方面技術(shù),限于篇幅和水平原因,這里敘述的比較淺顯,日后如果有更多研究我會(huì)再進(jìn)行更細(xì)致的補(bǔ)充。
開個(gè)小差:很多小伙伴應(yīng)該都聽說過美術(shù)生會(huì)經(jīng)常畫人體素描,還會(huì)因此產(chǎn)生一些羞羞的聯(lián)想,但其實(shí)我作為一個(gè)超業(yè)余美術(shù)愛好者,深知人體真的是很難畫的,其難點(diǎn)主要有三:
- 人體真的很不規(guī)則,可以設(shè)想,你能見到的大部分物體都是比較規(guī)則的,想想你身邊的床、柜子、桌椅板凳……出于工業(yè)設(shè)計(jì)與制造的方便,大多我們用到的物品都是由立方體、圓柱體等基本圖形以及其組合而演變來的,而人體卻是復(fù)雜的骨骼外面包裹了復(fù)雜的肌肉,既不是全方的也不是全圓的,哪怕是一條簡(jiǎn)單的胳膊也包含了微弱的高低起伏,因此是非常難以概括的。
- 人的動(dòng)態(tài)非常豐富,一個(gè)人的肢體活動(dòng)是非常多變的,而多變的肢體活動(dòng)帶來的是肌肉的拉伸、擠壓和復(fù)雜的透視,因此,想做出非常自然的虛擬人姿態(tài)難度是很大的,需要對(duì)各個(gè)肌肉及其聯(lián)動(dòng)的數(shù)據(jù)權(quán)重進(jìn)行大量的微調(diào),是需要非常豐富的建模及綁定經(jīng)驗(yàn)的。
- 人對(duì)人的敏感程度非常高,這就好比畫一棵樹,只要我畫了一堆樹葉上去,你可以完全不在乎樹葉畫的是不是和窗外那棵一模一樣,只要能看出來是樹,就可以了;對(duì)于人就不是這樣了,世界上有這么多人,卻很難找到兩個(gè)長(zhǎng)得一模一樣的人,人對(duì)于人臉的敏感程度非常高,稍微不像就能看的明顯,因此對(duì)于一些高保真的明星偶像的建模,也需要強(qiáng)大的美術(shù)功底才能支撐。
建模方式二:儀器采集建模
相比于手工建模,儀器采集建模是通過儀器掃描的方式來進(jìn)行建模。該方式成本較高,目前一般用于影視特效制作等領(lǐng)域居多。儀器采集建模技術(shù)分為靜態(tài)掃描建模和動(dòng)態(tài)光場(chǎng)重建:
- 靜態(tài)掃描模型技術(shù)是目前的主流,可具體細(xì)分為結(jié)構(gòu)光掃描重建與相機(jī)陣列掃描重建等。
- 動(dòng)態(tài)光場(chǎng)重建技術(shù)是目前重點(diǎn)發(fā)展的方向,不僅可以重建人物的幾何模型,還可一次性獲取動(dòng)態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,具有高視覺保真度。
許多關(guān)于虛擬人的行研報(bào)告里都有關(guān)于以上兩種技術(shù)的詳細(xì)介紹,例如國(guó)海證券的《數(shù)字虛擬人——科技人文的交點(diǎn),賦能產(chǎn)業(yè)的起點(diǎn)》中,「圖表:主要建模技術(shù)概況」就概括的很好,有興趣的讀者可以找來看看。
建模方式三:自動(dòng)化建模
自動(dòng)化建模主要包含以下一些方式:
- 圖像采集建模:通過采集照片來還原人臉 3D 結(jié)構(gòu)
- AI建模:利用AI算法直接生成人臉、身體等的建模方式
自動(dòng)化建模技術(shù)目前還不算特別成熟,建模結(jié)果到直接商用還有一段距離,不過,該類技術(shù)會(huì)大大降低建模的人力成本和時(shí)間成本。目前已經(jīng)出現(xiàn)了一些支持虛擬人創(chuàng)建的工具化平臺(tái),如英偉達(dá)的 Omniverse Avatar、Epic Unreal的 MetaHuman Creator 等。尤其是2022年6月最新發(fā)布的Unreal的MetaHuman Creator ,其效果令人驚艷。
這些平臺(tái)的建模精度雖不足以建立超高質(zhì)量的模型,但能夠大幅降低虛擬人建模的成本,讓普通人也能快速擁有屬于自己的虛擬形象。隨著技術(shù)的發(fā)展,自動(dòng)化建模的效果還會(huì)變得越來越好。在未來,這種方式有可能直接實(shí)現(xiàn)虛擬人生產(chǎn)流程的自動(dòng)化,和元宇宙入口、虛擬分身、千人千面等概念聯(lián)系起來,擁有巨大的想象力。
2. 綁定
綁定技術(shù)是動(dòng)態(tài)與靜態(tài)聯(lián)動(dòng)的橋梁,簡(jiǎn)單來說就是給做好的虛擬小人在關(guān)鍵位置打上點(diǎn),方便后續(xù)通過驅(qū)動(dòng)關(guān)鍵點(diǎn)來驅(qū)動(dòng)小人做出各種表情與姿態(tài)。關(guān)鍵點(diǎn)的位置遍布全身,例如軀干上,手肘、手腕、膝蓋、腳踝等關(guān)節(jié)就是關(guān)鍵點(diǎn);面部的眼皮、嘴角、眉頭等關(guān)鍵位置也要打上關(guān)鍵點(diǎn),讓虛擬小人“眉飛色舞”。
筆者自己曾學(xué)過簡(jiǎn)單的Maya骨骼綁定,簡(jiǎn)單來說,軀體部分的綁定的流程如下:
- 創(chuàng)建骨骼(就是做個(gè)火柴人出來)
- IK等方式添加骨骼的聯(lián)動(dòng)(例如腳踝抬起時(shí)膝蓋也會(huì)自然彎曲)
- 為骨骼蒙皮(就是把虛擬人的「血肉」和「骨骼」的關(guān)鍵點(diǎn)一一對(duì)應(yīng)起來)
- 調(diào)整權(quán)重(讓虛擬人在運(yùn)動(dòng)時(shí)肌肉的形變更加自然)
面部的綁定流程和軀體整體而言差不多,只是面部需要人做很多表情,做表情的時(shí)候諸如眼皮、嘴形、眉頭、蘋果肌等都會(huì)進(jìn)行聯(lián)動(dòng),因此面部綁定所需要的關(guān)鍵點(diǎn)更多更復(fù)雜。
隨著技術(shù)的發(fā)展,工業(yè)流程的演進(jìn),綁定技術(shù)也在向著更便捷、更高效、更智能、邊際成本更低的方向發(fā)展,關(guān)于這一點(diǎn)可以參看的國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn),賦能產(chǎn)業(yè)的起點(diǎn)》中的「圖表:綁定環(huán)節(jié)的技術(shù)革新」。
3. 動(dòng)態(tài)
完成以上兩步之后,我們就可以通過驅(qū)動(dòng)的方式讓虛擬人動(dòng)起來。整體而言,虛擬人可以分為交互型、非交互型兩種。
非交互型主要通過設(shè)置預(yù)制動(dòng)作來讓人物動(dòng)起來,類似于動(dòng)畫片的原理,不能實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。
交互型虛擬人是我們的重點(diǎn)。交互型虛擬人需要靠驅(qū)動(dòng)技術(shù)來驅(qū)動(dòng)動(dòng)作、表情、嘴形,這樣,虛擬人才能做到根據(jù)外界刺激進(jìn)行反饋的效果。交互型數(shù)字人的驅(qū)動(dòng)可以分為傳統(tǒng)驅(qū)動(dòng)方法和智能驅(qū)動(dòng)方法。
1)傳統(tǒng)驅(qū)動(dòng)方法
可以分成光學(xué)動(dòng)作捕捉、慣性動(dòng)作捕捉、Track 設(shè)備+IK 算法的動(dòng)作捕捉等方法,現(xiàn)階段,光學(xué)式和慣性式動(dòng)作捕捉占據(jù)主導(dǎo)地位。傳統(tǒng)驅(qū)動(dòng)方法一般需要”真人+動(dòng)捕設(shè)備”來進(jìn)行驅(qū)動(dòng),這個(gè)后臺(tái)的真人又稱為“中之人”
2)智能驅(qū)動(dòng)方法
智能驅(qū)動(dòng)是指通過AI技術(shù),例如CV、ASR、TTS等來對(duì)虛擬人進(jìn)行驅(qū)動(dòng),該方式造價(jià)成本低,可以無(wú)限拓展,在未來有很大的想象空間。不過現(xiàn)階段AI技術(shù)有限,一般需要結(jié)合合適的場(chǎng)景,通過較多垂直領(lǐng)域的訓(xùn)練才能達(dá)到商業(yè)可用的效果。
關(guān)于這一部分,我同樣參考了國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn),賦能產(chǎn)業(yè)的起點(diǎn)》中的「圖表:主要捕捉技術(shù)特性對(duì)比」和「圖表:主要驅(qū)動(dòng)技術(shù)概況」。我覺得這份材料的很多總結(jié)簡(jiǎn)潔到位,是一份非常不錯(cuò)的參考材料。
05 靈魂
其實(shí)用“靈魂”這個(gè)詞只是為了表達(dá)“身體與靈魂”這一概念的方便,其實(shí)我更想表達(dá)的是類似于“頭腦、意識(shí)”這樣的一個(gè)抽象的概念,與身體的“物質(zhì)性”相對(duì)應(yīng),它屬于人的“非物質(zhì)”那一部分,我姑且把它稱為“靈魂”。關(guān)于「靈魂」我想分為3個(gè)層面來介紹,分別是感知、認(rèn)知和創(chuàng)造。虛擬人的「靈魂」主要需要依賴各種AI技術(shù)來進(jìn)行賦能。
1. 感知
感知是人最生物性的層面,主要是和我們的五感有關(guān),具體來說就是看、聽、說三個(gè)部分;目前,直接的知覺、嗅覺等技術(shù)還不成熟,也許未來的腦機(jī)接口、體感設(shè)備等技術(shù)會(huì)在這些方面有所突破。
虛擬人的感知技術(shù)主要依賴于人工智能,在感知層面,人工智能技術(shù)當(dāng)下整體而言是成熟的,不成熟的部分短時(shí)間內(nèi)也難有重大突破,因此一般需要結(jié)合具體場(chǎng)景,通過合理的產(chǎn)品設(shè)計(jì)和精細(xì)化運(yùn)營(yíng)等方式來達(dá)到可用的程度。
看:計(jì)算機(jī)視覺CV
計(jì)算機(jī)視覺技術(shù)可以幫助虛擬人“看”到物體,并作出一定程度的簡(jiǎn)單分析。計(jì)算機(jī)視覺技術(shù)主要依靠深度學(xué)習(xí)中的CNN網(wǎng)絡(luò),一般的技術(shù)應(yīng)用均為CNN的變種。CV技術(shù)主要有以下幾類應(yīng)用。
1)分類
給定一張輸入圖像,圖像分類任務(wù)旨在判斷該圖像所屬類別,例如,檢測(cè)出一張照片中的主角是貓還是狗等,常用的分類網(wǎng)絡(luò)包括AlexNet、VGG-16/VGG-19、ResNet等
2)檢測(cè)
在圖像分類的基礎(chǔ)上,給出圖像中的目標(biāo)包圍盒,常用的目標(biāo)檢測(cè)算法包括:
- 基于候選區(qū)域的目標(biāo)檢測(cè)算法,如R-CNN、Fast R-CNN、Faster R-CNN等
- 基于直接回歸的目標(biāo)檢測(cè)算法:如YOLO、SSD等
3)分割
可以進(jìn)一步分為語(yǔ)義分割、實(shí)例分割,均可理解為更加精細(xì)的檢測(cè)任務(wù),常用算法包括Mask R-CNN等。
下圖非常形象地表示出了CV的幾種關(guān)鍵任務(wù),分別是:
- 分類
- 檢測(cè)
- 語(yǔ)義分割
- 實(shí)例分割
CV類技術(shù)有非常廣泛的應(yīng)用,例如人臉識(shí)別、姿態(tài)識(shí)別、障礙物識(shí)別等,這些具體的應(yīng)用技術(shù)均可以和虛擬人賽道進(jìn)一步結(jié)合來滿足虛擬人的不同應(yīng)用場(chǎng)景。
聽:語(yǔ)音識(shí)別ASR
將聽到的聲音轉(zhuǎn)化成語(yǔ)言的技術(shù),主要分為聲音接收和聲音識(shí)別兩個(gè)部分。
聲音接受部分主要依賴于硬件、環(huán)境及聲源,一般來說,較高級(jí)的聲音接收設(shè)備、噪音較小的環(huán)境,發(fā)音標(biāo)準(zhǔn)且音量適中的聲源均會(huì)提升聲音接收的質(zhì)量。
聲音識(shí)別部分主要依賴于機(jī)器學(xué)習(xí)及其中的深度學(xué)習(xí)等AI技術(shù),主要可分為傳統(tǒng)方法和端到端方法:
- 傳統(tǒng)方法:需要先提取聲音信息特征,例如MFCC、LPCC等,這里主要涉及信號(hào)處理相關(guān)知識(shí);提取特征后再采用HMM、語(yǔ)言模型等綜合得出識(shí)別結(jié)果。
- 端到端方式:主要依托于深度學(xué)習(xí)技術(shù),由于語(yǔ)音本身是具有時(shí)序性的(倒放的語(yǔ)音很難聽懂),因此語(yǔ)音識(shí)別主要依托以RNN為基礎(chǔ)的時(shí)序類深度學(xué)習(xí)模型,例如其衍生出的LSTM、GRU等,來完成語(yǔ)音到文字的轉(zhuǎn)化工作。
說:語(yǔ)音合成TTS
把文字轉(zhuǎn)化成語(yǔ)音播放出來的技術(shù)就是TTS技術(shù),能形成自然、流暢、動(dòng)聽的聲音是TTS技術(shù)所追求的目標(biāo)。
從技術(shù)的角度來看,TTS系統(tǒng)主要分為前端系統(tǒng)和后端系統(tǒng):
前端系統(tǒng)負(fù)責(zé)對(duì)文字進(jìn)行分析,并形成一份“發(fā)音指南”,里面包括每個(gè)字的讀音音素、連讀、重音、停頓、多音字讀法等,這份“發(fā)音指南”就像一個(gè)發(fā)音“說明書”,會(huì)傳給后端。
后端系統(tǒng)按照前端生成的“發(fā)音說明書”,負(fù)責(zé)把聲音合成出來,目前主流的后端合成技術(shù)有兩大類,分別是“拼接法”和“參數(shù)法”。
- 拼接法:先通過真人錄制聲音,再根據(jù)“說明書”把需要的聲音片段拼合起來,這種方法優(yōu)點(diǎn)是聲音本身自然動(dòng)聽,缺點(diǎn)是人力成本高,且流暢度容易出現(xiàn)問題。
- 參數(shù)法:用聲音信號(hào)的參數(shù),如基頻、頻譜等來表示聲音,將“聲音說明書”中每一個(gè)音素的“參數(shù)”找出來,合成對(duì)應(yīng)的聲音;參數(shù)法的優(yōu)點(diǎn)是成本低,缺點(diǎn)是機(jī)械感比較明顯,不夠自然,不過該方法會(huì)隨著技術(shù)發(fā)展效果越來越好,應(yīng)用范圍也會(huì)越來越廣;目前比較主流的參數(shù)法一般是使用端到端的方法,例如Tacotron2、WaveNet等。
2. 認(rèn)知
認(rèn)知是在感知的基礎(chǔ)上進(jìn)一步形成的思考能力,這里我把認(rèn)知能力進(jìn)一步分成兩個(gè)方面,分別是理性的認(rèn)知能力和感性的情感識(shí)別能力。
理性認(rèn)知能力
1)知識(shí):知識(shí)圖譜KG
知識(shí)主要依賴于知識(shí)圖譜技術(shù)。知識(shí)圖譜是給知識(shí)形成的一個(gè)以三元組
實(shí)體<—>關(guān)系<—>實(shí)體
為核心的邏輯圖,例如以中國(guó)城市為主題的邏輯圖,就是下列形態(tài):
其中,“中國(guó)”、“北京”、“遼寧”、“沈陽(yáng)”等都是實(shí)體,“是直轄市”、“是省”、“是省會(huì)”等就是關(guān)系。
知識(shí)圖譜可以在任意知識(shí)領(lǐng)域運(yùn)用,例如金融業(yè)有銀行理財(cái)知識(shí)圖譜、保險(xiǎn)知識(shí)圖譜等;農(nóng)業(yè)領(lǐng)域有動(dòng)植物知識(shí)圖譜、農(nóng)作物知識(shí)圖譜等;一個(gè)好的知識(shí)圖譜就是一個(gè)邏輯清晰的知識(shí)寶庫(kù)。
知識(shí)圖譜可以以圖數(shù)據(jù)庫(kù)、三元組數(shù)據(jù)庫(kù)等形式進(jìn)行存儲(chǔ)。如果把知識(shí)圖譜“喂”給一個(gè)虛擬人,該虛擬人就有了這個(gè)方面的豐富知識(shí)。例如,銀行業(yè)務(wù)導(dǎo)引虛擬人就需要非常豐富的銀行業(yè)務(wù)知識(shí),文旅導(dǎo)游虛擬人就需要對(duì)導(dǎo)游相關(guān)知識(shí)非常了解……
知識(shí)圖譜能快速賦予虛擬人以某一方面的專業(yè)知識(shí),堪比《西游記》中的孫悟空吃掉一本書立刻就能掌握書中內(nèi)容了。知識(shí)圖譜的完善對(duì)于虛擬人的應(yīng)用意義非凡,而知識(shí)圖譜本身技術(shù)難度不大,其完善主要的門檻在于對(duì)于垂直細(xì)分行業(yè)的深度理解。
2)理解:NLP
通過感知,虛擬人可以獲得外界的信息。通過CV「看到」的信息,通過ASR「聽到」的信息,都可以轉(zhuǎn)化成語(yǔ)言文字的形態(tài)。但僅有感知還是不夠的,虛擬人不僅要能獲取信息,還需要理解這些信息所代表的真正意圖,明白感知到的信息的含義,才能做出下一步的動(dòng)作。
NLP技術(shù)的全稱是自然語(yǔ)言處理技術(shù),重點(diǎn)就是理解語(yǔ)義信息,主要包括詞法分析、句法分析、語(yǔ)義分析、情感分析等幾個(gè)部分。通過NLP技術(shù),可以做以下事情:
- 對(duì)一句話進(jìn)行分詞(主要針對(duì)中文等語(yǔ)言,英文就不用了)
- 分析出每個(gè)詞的詞性,判斷是名詞還是動(dòng)詞,是形容詞還是副詞等
- 分析出句子的語(yǔ)法結(jié)構(gòu),例如主謂賓等
- 分析出各個(gè)部分的施事受事關(guān)系,例如“我打你”,“我”是施事,“你”是受事
- 通過語(yǔ)氣詞、“喜歡”、“討厭”等關(guān)鍵詞分析出句子的情感傾向
通過以上種種環(huán)節(jié),虛擬人便可以通過NLP技術(shù)來理解感知到的信息的含義,識(shí)別出信息的意圖,便于后續(xù)做出進(jìn)一步的反饋等交互動(dòng)作。
3)決策:數(shù)據(jù)智能ML
決策能力是人的一項(xiàng)重要素質(zhì),對(duì)于虛擬人來說,也可以通過AI的方式提升決策能力,而這一能力的提升主要依賴的就是各種數(shù)據(jù)智能模型。
簡(jiǎn)單來說,數(shù)據(jù)智能就是通過搜集某一問題的大量歷史數(shù)據(jù),再通過機(jī)器學(xué)習(xí)的某個(gè)算法擬合出該問題的函數(shù)模型,并依據(jù)函數(shù)模型對(duì)未來做出預(yù)測(cè)與決策。例如,可以通過某一產(chǎn)品的歷史銷量分析出該產(chǎn)品未來的銷量走勢(shì);可以根據(jù)球隊(duì)的歷史勝負(fù)情況來預(yù)測(cè)未來某一場(chǎng)球賽的結(jié)果等,宛如那年夏天的章魚保羅。
常用的可以用于決策建模的機(jī)器學(xué)習(xí)算法非常多,從有無(wú)標(biāo)簽可以分為有監(jiān)督、無(wú)監(jiān)督、半監(jiān)督;從任務(wù)類型可以分為分類、回歸、聚類、時(shí)序預(yù)測(cè)等。經(jīng)典的機(jī)器學(xué)習(xí)算法很多,例如決策樹、支持向量機(jī)、XGBoost等等,篇幅原因不做具體展開,感興趣的讀者可以看一看周志華老師的西瓜書。
對(duì)于數(shù)據(jù)智能任務(wù)而言,模型其實(shí)并不難,現(xiàn)階段真正難的是是否有足夠多的有價(jià)值的數(shù)據(jù)?;ヂ?lián)網(wǎng)、金融等企業(yè)相對(duì)而言有效數(shù)據(jù)的收集意識(shí)較強(qiáng),但很多傳統(tǒng)企業(yè),收集數(shù)據(jù)的意識(shí)還較弱,目前也正在數(shù)字化轉(zhuǎn)型當(dāng)中。隨著數(shù)字化轉(zhuǎn)型的進(jìn)程,虛擬人也會(huì)有越來越多的應(yīng)用。
情感識(shí)別能力
人不僅需要理性,也需要感性。親情、友情、愛情,人與人之間的交往往往是感性大于理性的。對(duì)于虛擬人而言,除了理性方面的知識(shí)、理解、決策等能力,對(duì)于情感的把握也是應(yīng)該具備的品質(zhì)。能夠進(jìn)行情感識(shí)別、情感反饋的虛擬人,在目前還是藍(lán)海的陪伴型虛擬人賽道有著巨大的用戶價(jià)值和商業(yè)價(jià)值。
情感識(shí)別是一項(xiàng)綜合的能力,例如,通過CV技術(shù),虛擬人可以分辨人的表情是開心還是難過;通過ASR技術(shù),虛擬人可以通過聲紋來分析說話人的說話語(yǔ)氣是高興還是壓抑,甚至是憤怒;通過NLP技術(shù),虛擬人可以分析說話人說話的內(nèi)容中,是否含有強(qiáng)烈的表達(dá)態(tài)度的語(yǔ)氣詞,例如“喜歡/不喜歡”、“垃圾”、“太贊了”……
心理學(xué)家羅伯特·普拉切克提出了情緒輪,內(nèi)含8種基本情緒,可以作為情緒識(shí)別標(biāo)簽設(shè)計(jì)的依據(jù)。
情感識(shí)別的能力目前已經(jīng)在輿情控制、課堂教學(xué)等領(lǐng)域得到了一定的應(yīng)用,但整體而言現(xiàn)階段還不夠成熟,還有巨大的探索空間。
3. 創(chuàng)造
就像我們小學(xué)的時(shí)候會(huì)先學(xué)習(xí)漢字,學(xué)習(xí)造句,再學(xué)習(xí)寫作文一樣,創(chuàng)造是更高一級(jí)的智力活動(dòng)。只有在進(jìn)行過大量的學(xué)習(xí)之后,才能進(jìn)行有效的創(chuàng)造,人如此,虛擬人亦如此。
目前,“創(chuàng)造”主要是用在虛擬人的創(chuàng)作領(lǐng)域,例如AI作畫、作詩(shī)、寫新聞稿、開放式聊天等等,主要依賴的是以GAN為基礎(chǔ)的生成式模型。
整體而言,創(chuàng)造類技術(shù)目前成熟度不高,僅在一些規(guī)范性比較強(qiáng)的領(lǐng)域如新聞稿等有一些成功案例,更多的應(yīng)用還集中在概念展示階段,距離真正大規(guī)模商用,還有一段距離。距離產(chǎn)生美,這也給虛擬人未來的潛力提供了巨大的想象空間。
06 世界與人設(shè)
之所以分成「身體+靈魂」、「世界+人設(shè)」,是因?yàn)榍皟蓚€(gè)代表個(gè)體,后兩個(gè)代表外界。而在后兩個(gè)元素中,「世界」是外面給我們的,是由外而內(nèi)的,人設(shè)是我們給外面的,是由內(nèi)而外的,美妙嗎?非常美妙。
1. 世界
世界,就是虛擬人生活的周圍環(huán)境。在有了一個(gè)虛擬人之后,我們還需要給它一個(gè)載體,一個(gè)舞臺(tái),讓虛擬人走到臺(tái)前來發(fā)揮它的價(jià)值。構(gòu)建虛擬人世界的技術(shù),我想談兩個(gè)點(diǎn),分別是渲染和終端。
1)渲染
渲染,就是把做好的模型呈現(xiàn)在屏幕上的過程,或者說需要通過數(shù)學(xué)計(jì)算的方式,把做好的模型變成計(jì)算機(jī)屏幕上一個(gè)個(gè)像素點(diǎn)的顯示RGB值,來完成實(shí)際顯示的過程。渲染主要涉及到的技術(shù)是計(jì)算機(jī)圖形學(xué),這一過程需要大量的關(guān)于頂點(diǎn)位置、顏色、光照等的計(jì)算,也會(huì)消耗大量的計(jì)算資源。
渲染主要可以分為離線渲染和實(shí)時(shí)渲染,其中,離線渲染主要用在電影、廣告等可以提前做好無(wú)需交互的場(chǎng)景里,允許花費(fèi)較長(zhǎng)時(shí)間,因此效果很好,但成本也很高;實(shí)時(shí)渲染主要用在游戲、直播等需要實(shí)時(shí)互動(dòng)的場(chǎng)景里,對(duì)時(shí)間比較敏感,因此效果略弱于離線渲染。
Unity和Unreal以往都是用來制作游戲的游戲引擎,二者都是實(shí)時(shí)渲染的利器。雖說比不上離線渲染的效果,但二者的制作水平也在不斷升級(jí),目前新出的Unreal5,其能夠達(dá)到的渲染效果已經(jīng)非常優(yōu)質(zhì),實(shí)時(shí)渲染的效果正在一步步向離線渲染逼近。
(注:本圖來自國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn),賦能產(chǎn)業(yè)的起點(diǎn)》)
另外,近些年來發(fā)展的PBR技術(shù)對(duì)于虛擬人的發(fā)展也至關(guān)重要。PBR 是基于真實(shí)物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合,它使得渲染效果突破了塑料感。該項(xiàng)技術(shù)使虛擬數(shù)字人皮膚紋理變得真實(shí),進(jìn)而有助于突破恐怖谷效應(yīng)。常見的幾款 3D 引擎,如 UE4,Unity 3D 5等,均有了各自的 PBR 實(shí)現(xiàn)。
實(shí)時(shí)渲染技術(shù)的發(fā)展可以讓虛擬人在交互的環(huán)境下提升用戶體驗(yàn),對(duì)于VR、AR等賽道的普及與發(fā)展有極大的助力。
2)終端
當(dāng)前,虛擬人沒有實(shí)體,是需要依托屏幕來顯示的,因此虛擬人需要生活在終端里,虛擬人如果有實(shí)體,那就不叫虛擬人,叫機(jī)器人了。其實(shí),現(xiàn)在已經(jīng)有材料等領(lǐng)域的科學(xué)家在研究非常類似于人表皮組織的材料,以期待能做出幾乎以假亂真的“人形機(jī)器人”,該項(xiàng)技術(shù)近期也取得了一定的突破性成果。2022年6月,日本東京大學(xué)宣布,世界上首次成功開發(fā)出人工培養(yǎng)的“活”皮膚覆蓋的手指型機(jī)器人。但該類技術(shù)距離真正成熟還有很遙遠(yuǎn)的距離,而且也面臨著社會(huì)倫理等方面的巨大挑戰(zhàn)。
總的來說,最近一段時(shí)間,虛擬人還是要深度依賴電子終端的。隨著科技的發(fā)展,虛擬人能夠活躍的終端種類也越來越豐富,我簡(jiǎn)單總結(jié)了一些我能想到的各類終端,分類并不嚴(yán)謹(jǐn),只是一個(gè)大致的羅列:
- 常規(guī)終端:手機(jī)端、PC端、電視大屏端
- IoT:智能家居、智能座艙等終端
- 產(chǎn)業(yè)終端:銀行導(dǎo)覽、商場(chǎng)導(dǎo)購(gòu)等
- 新終端:VR、AR、裸眼3D全息等
2. 人設(shè)
最后,再來聊一聊人設(shè)。
和上面的內(nèi)容相比,人設(shè)是一個(gè)非技術(shù)的概念,按說不應(yīng)該放在「技術(shù)篇」來講。但是它偏巧又很重要。我們每個(gè)人都有一個(gè)最本真的“我”和一個(gè)社會(huì)的“我”,我們面對(duì)不同的人會(huì)帶上不同的面具,這一點(diǎn)對(duì)于虛擬人來說是一樣的。在技術(shù)整體水平基本無(wú)法拉開差距的時(shí)候,對(duì)于一個(gè)虛擬人產(chǎn)品而言,更重要的就是是否有一個(gè)好的人設(shè)。
不同場(chǎng)景、不同設(shè)定的虛擬人,其人設(shè)是完全不同的,這給產(chǎn)品、運(yùn)營(yíng)、技術(shù)都帶來了很大的挑戰(zhàn)。
好的虛擬人一定是一個(gè)好產(chǎn)品。一個(gè)好的產(chǎn)品,有三個(gè)要素是必不可少的,分別是敲門磚,護(hù)城河,生命線。敲門磚決定門檻,護(hù)城河決定優(yōu)勢(shì),生命線決定盈利。對(duì)于虛擬人而言,這三個(gè)概念可以這樣理解:
1)敲門磚
敲門磚就是好的人設(shè)。虛擬人對(duì)于人設(shè)的塑造非常重要,如果是一個(gè)虛擬偶像,那就需要好的IP、靚麗的外形、活潑的肢體語(yǔ)言,甚至是唱跳、創(chuàng)作等能力;而如果是一個(gè)銀行的虛擬員工,TA就應(yīng)該像萬(wàn)千打工人一樣,簡(jiǎn)約、專業(yè),可靠……總之,是否有一個(gè)和場(chǎng)景搭配的外形設(shè)計(jì),是否有足夠切合的性格設(shè)計(jì),是否能夠依托于一個(gè)IP或者品牌,都對(duì)虛擬人的后續(xù)運(yùn)營(yíng)工作至關(guān)重要。
2)護(hù)城河
優(yōu)秀的人設(shè),要結(jié)合扎實(shí)的產(chǎn)品設(shè)計(jì)和優(yōu)質(zhì)的技術(shù)實(shí)現(xiàn)才有可能達(dá)到。不同的人設(shè),其產(chǎn)品的細(xì)節(jié)設(shè)計(jì)也是不同的:一個(gè)“小女孩”的人設(shè)說話一般是俏皮的,一個(gè)職員的人設(shè)說話一般是專業(yè)親切的,這對(duì)于產(chǎn)品話術(shù)的設(shè)計(jì)提出了考驗(yàn)。
從身體外形的角度,虛擬人可以分為二次元、類人、超寫實(shí)、未來科幻等不同風(fēng)格;從人格靈魂上來講,一個(gè)銀行引導(dǎo)型虛擬人需要具備豐富的金融行業(yè)知識(shí)、一個(gè)虛擬偶像需要具備唱歌跳舞,甚至是歌曲創(chuàng)作等能力;一個(gè)陪伴老人的虛擬人,可能需要豐富的醫(yī)療、保健方面知識(shí)和對(duì)情感的感知與回饋……
人設(shè)的打造既要滿足產(chǎn)品的需求,又要兼顧到技術(shù)的邊界……可以說,一個(gè)成功的虛擬人IP的打造,是非常不易的。
3)生命線
對(duì)于任何一個(gè)偶像類的強(qiáng)人設(shè)型虛擬人,其二創(chuàng)能力非常重要,二創(chuàng)能力可以讓用戶自發(fā)參與其中,形成優(yōu)質(zhì)的生態(tài)圈,同時(shí)也對(duì)后續(xù)的商業(yè)化變現(xiàn)有巨大增益;好的二創(chuàng)離不開運(yùn)營(yíng)的引導(dǎo)支持,這對(duì)于虛擬人來說也至關(guān)重要,可以說,二創(chuàng)能力就是虛擬人產(chǎn)品的生命線,決定了虛擬人產(chǎn)品是石沉大海還是強(qiáng)勢(shì)出圈,是否能可持續(xù)發(fā)展。
關(guān)于人設(shè),很多人認(rèn)為虛擬人的一個(gè)優(yōu)勢(shì)就是不會(huì)翻車,畢竟近期劣跡藝人太多,很多公司都因?yàn)榱盂E藝人受到了影響,虛擬人似乎是一個(gè)零差評(píng)零緋聞的不錯(cuò)選項(xiàng)。但是其實(shí),對(duì)于虛擬人來說,運(yùn)營(yíng)翻車的例子也比比皆是,這也對(duì)虛擬人的運(yùn)營(yíng)人員提出了巨大考驗(yàn)。
07 趨勢(shì)&邊界
虛擬人賽道是一個(gè)技術(shù)的綜合體,任何一項(xiàng)技術(shù)的不完善、不成熟,都制約著虛擬人的“類人”程度??偟膩碚f,虛擬人有三條技術(shù)路徑:
- 純?nèi)斯?/li>
- 人工+AI
- 純AI
純?nèi)斯さ姆绞匠杀具^高,純AI的方式技術(shù)暫不支持,目前基本采用的是人工+AI的方式,但隨著科技的進(jìn)步,這一流程中的AI部分占比會(huì)越來越多,虛擬人整體的制作流程也會(huì)成本更低、時(shí)間更短。
對(duì)于虛擬人賽道的發(fā)展,我們當(dāng)下要做的事情是:
- 明確技術(shù)邊界,并知道不同環(huán)節(jié)不同技術(shù)下的效果、成本和收益
- 找到合適的場(chǎng)景,通過場(chǎng)景本身的制約、細(xì)分領(lǐng)域的打磨來完成應(yīng)用
- 積極擁抱技術(shù)創(chuàng)新
邊界代表當(dāng)下,趨勢(shì)代表未來,我在這里想淺盤一下主要的技術(shù),并對(duì)未來進(jìn)行一些分析。
1. 邊界與當(dāng)下
1)傳統(tǒng)方法仍有局限
建模(maya、3Dmax等)、驅(qū)動(dòng)(中之人動(dòng)捕)、渲染(Unity、Unreal等)方面,已有的非AI類的工具、技術(shù)均已較為成熟,但依舊存在著一些問題,例如成本較高、制作周期長(zhǎng)、實(shí)時(shí)渲染效果有限且對(duì)設(shè)備要求高、過于依賴中之人等。
AI等智能化、自動(dòng)化等技術(shù)的發(fā)展正在改變以上領(lǐng)域的流程,未來隨著智能化和自動(dòng)化的發(fā)展,建模、驅(qū)動(dòng)、渲染等工作會(huì)朝著成本更低、時(shí)間更短、門檻更低、效果更好的方向發(fā)展。成本的下探至關(guān)重要,成本及門檻下探到一定程度,虛擬人的應(yīng)用場(chǎng)景才會(huì)由B端過渡到C端。
2)AI能力有待提高
AI能夠賦予虛擬人以大腦,AI技術(shù)水平的發(fā)展直接決定了這個(gè)虛擬人是否“弱智”。目前,AI能力的成熟度尚不平均,感知類技術(shù)如CV、ASR、TTS等技術(shù)已經(jīng)能夠做到較好的水平,一些AI公司如科大訊飛等也均有相關(guān)能力的提供,成熟度較高;而認(rèn)知能力需要深度的業(yè)務(wù)知識(shí)加成和大量的訓(xùn)練數(shù)據(jù)支撐;情感類能力、創(chuàng)作類技能目前尚不成熟,距離大規(guī)模商業(yè)落地還有一段距離,目前需要依賴精細(xì)化的產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng)。
3)其他需要關(guān)注的點(diǎn)
我們需要關(guān)注的點(diǎn)不僅僅是AI、CG等高度相關(guān)的技術(shù),對(duì)于周邊的技術(shù)例如基礎(chǔ)設(shè)施建設(shè)、VRAR技術(shù)、芯片及算力、邊緣計(jì)算能力等的發(fā)展,也需要高度重視;同時(shí),偏產(chǎn)品和運(yùn)營(yíng)維度來說,對(duì)于IP設(shè)計(jì)、人物設(shè)計(jì)、二創(chuàng)運(yùn)營(yíng)等能力,也需要引起足夠重視。
2. 趨勢(shì)與未來
未來虛擬人相關(guān)技術(shù)的發(fā)展將會(huì)有幾個(gè)大的趨勢(shì):
- 視覺效果更加美觀、流暢、炫酷,這依賴于計(jì)算機(jī)圖形學(xué)、硬件計(jì)算能力、顯示設(shè)備、建模及渲染工具等的發(fā)展。
- AI等智能化技術(shù)發(fā)展,賦予虛擬人越來越聰明、人性化的大腦,越來越能夠像一個(gè)真實(shí)的人一樣和人類交流,去體察、決策、陪伴。其中,AI要向兩個(gè)方向重點(diǎn)發(fā)展,一是具體行業(yè)的know-how積累,二是情感型陪伴能力的提升。
- 工作流朝智能化、自動(dòng)化方向發(fā)展,流程縮短、成本降低,若能端到端的生成可用的虛擬人,將為虛擬人的低門檻大批量制作提供可能。
- 隨著VR、AR、IoT等賽道的發(fā)展,虛擬人可以活躍在越來越多的終端上,隨之帶來的就是更多的應(yīng)用場(chǎng)景和能力挑戰(zhàn)。
- 當(dāng)成本與門檻足夠低時(shí),就有了人均一個(gè)甚至人均多個(gè)虛擬人的可能。在元宇宙中,虛擬人可以作為NPC、也可以做真人的第二分身,之后無(wú)論是結(jié)合千人千面、還是結(jié)合NFT等概念,都有了無(wú)限的想象空間。
- 未來有可能出現(xiàn)真正的類人機(jī)器人形態(tài)的人工智能體,屆時(shí)虛擬人將不僅能夠生活在屏幕中,還會(huì)有一個(gè)實(shí)實(shí)在在的軀體,但就像克隆技術(shù)一樣,這樣的技術(shù)雖然能夠代表AI、材料、醫(yī)療等諸多學(xué)科的科技前沿,但是否符合倫理道德,是否能夠商用,將是一個(gè)大大的問號(hào)。
在網(wǎng)上,看到了百度李士巖的一段話,很有趣。他認(rèn)為:數(shù)字人是基于計(jì)算機(jī)平臺(tái)的交互載體,將呈現(xiàn)段落式發(fā)展。
當(dāng)下所處的平面計(jì)算時(shí)代,主要以服務(wù)型與表演型數(shù)字人應(yīng)用為主,下一個(gè)階段是更大的時(shí)代,暫時(shí)定義為空間計(jì)算時(shí)代??臻g計(jì)算時(shí)代計(jì)算平臺(tái)呈現(xiàn)的信息不再是平面的,而是實(shí)時(shí)三維的,屆時(shí)核心用戶的行為大概會(huì)有社交、獲取商品、信息消費(fèi)、獲得服務(wù)四類,那么能夠提供個(gè)性化交互、能提供情緒價(jià)值和內(nèi)容價(jià)值的虛擬分身是必選項(xiàng),能夠提供人文情感關(guān)懷、又能保證效率的服務(wù)型數(shù)字人則是另一種應(yīng)用形態(tài)。在未來的空間計(jì)算時(shí)代,一定會(huì)產(chǎn)生比現(xiàn)在平面計(jì)算時(shí)代更大的市場(chǎng)。
08 結(jié)語(yǔ)
一不小心就廢話了很多內(nèi)容,其實(shí)之所以想寫這個(gè)主題,原因就是我對(duì)虛擬人這個(gè)賽道很感興趣。而之所以對(duì)虛擬人賽道感興趣,主要是以下幾個(gè)原因:
一是從專業(yè)的角度來講,我過去一直是工作在AI賽道的,人工智能的本質(zhì)是對(duì)智能體的模擬,虛擬人技術(shù)是對(duì)人工智能技術(shù)的綜合應(yīng)用,也是人工智能體的初級(jí)階段,這讓我對(duì)TA產(chǎn)生了極大的好奇,很想一探窺之;
二是出于個(gè)人的一點(diǎn)私心,本人雖是理科生,但對(duì)人文科學(xué)與藝術(shù)領(lǐng)域一直非常感興趣;虛擬人賽道和許多科技類賽道不同,更像是科技與人文的交點(diǎn),在科技發(fā)展的同時(shí)也充斥了關(guān)于藝術(shù)、文化、倫理等的討論,讓我心向往之;
三是一點(diǎn)無(wú)厘頭的想象,我從小就是一個(gè)幻想能力極強(qiáng)的小孩,被二次元深深吸引,我小的時(shí)候很喜歡看《數(shù)碼寶貝》這類動(dòng)畫片,倒是挺希望有一天能和這些電視里的英雄說說話的。就當(dāng)下而言,試問如果熊大熊二喜羊羊能開口說話,和孩子來一番互動(dòng)教學(xué),是不是也美滋滋的?
出于以上一些原因,我盡個(gè)人的綿薄之力對(duì)虛擬人進(jìn)行了一個(gè)調(diào)研,并且想把調(diào)研的內(nèi)容進(jìn)行梳理,希望能給讀者帶來一點(diǎn)點(diǎn)收獲。
對(duì)于虛擬人這個(gè)賽道,我自己也是一個(gè)初學(xué)者,目前尚不是行業(yè)內(nèi)的工作者,以上內(nèi)容及觀點(diǎn)主要是通過自學(xué)以及基于網(wǎng)絡(luò)材料的調(diào)研形成的。水平非常非常有限,很希望各位業(yè)內(nèi)人士能夠指出我的錯(cuò)誤和不足,我都會(huì)悉心聽取。
十分感謝大家。
參考材料:
- 國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn),賦能產(chǎn)業(yè)的起點(diǎn)》
- 頭豹研究院《2022年中國(guó)虛擬人產(chǎn)業(yè)發(fā)展白皮書》
- 天風(fēng)證券《虛擬數(shù)字人:元宇宙的主角破圈而來》
- 華麗智庫(kù)《全球時(shí)尚虛擬人物研究報(bào)告》
- 中銀證券《虛擬人行業(yè)深度研究》
- 中國(guó)傳媒大學(xué)《中國(guó)虛擬數(shù)字人 影響力指數(shù)報(bào)告》2021年度
- 艾媒咨詢的《2022年中國(guó)虛擬人行業(yè)發(fā)展研究報(bào)告》
- 頭豹研究院《2022年AI驅(qū)動(dòng)虛擬人行業(yè)概覽》
- 量子位《虛擬數(shù)字人 深度產(chǎn)業(yè)報(bào)告》
- 安信證券《元宇宙之中國(guó)優(yōu)勢(shì):虛擬數(shù)字人,分發(fā)與流通環(huán)節(jié)的新戰(zhàn)場(chǎng) 》
- 安信證券《虛擬數(shù)字人的長(zhǎng)短期展望:IP 與賦能》
- 達(dá)摩院《阿里小蜜數(shù)字人互動(dòng)決策的探索與落地》
PS:部分資料源自網(wǎng)絡(luò),目的是為了更好的說明所講的問題,如有侵權(quán)可以聯(lián)系我進(jìn)行刪除,不勝感激。
本文由 @進(jìn)擊的唐猜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
不管怎么說,我還是很期待虛擬人的發(fā)展的,希望未來可以看到虛擬人的好的發(fā)展
數(shù)字人是基于計(jì)算機(jī)平臺(tái)的交互載體,將呈現(xiàn)段落式發(fā)展
曾經(jīng)我也以為虛擬人不會(huì)翻車,但后來才發(fā)現(xiàn),也許未來AI控制的虛擬人翻車概率低點(diǎn),但現(xiàn)在采用中之人的虛擬人翻車概率一點(diǎn)也不低,還是需要公司和團(tuán)隊(duì)好好運(yùn)營(yíng)維護(hù)才行。