天干夜啦天干天干国产精品，免费无码国产一级AV片，亚洲专区无码av，人妻系列专区一区，久久久久久亚洲视频免费，狼狼狼色在线精品视频免费，亚洲视频在线精品无码，AV在线播放每日更新

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

【萬(wàn)字長(zhǎng)文】虛擬人漫談｜技術(shù)篇

光希

2022-06-23

3 評(píng)論 4949 瀏覽 15 收藏

55 分鐘

編輯導(dǎo)語(yǔ)：近些年CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展，催生了虛擬人概念的出現(xiàn)。虛擬人到底是什么呢？本文作者從身體、靈魂、世界、人設(shè)等方面對(duì)虛擬人進(jìn)行了分析，一起來看一下吧。

了解虛擬人賽道產(chǎn)品相關(guān)信息請(qǐng)看我的前兩篇文章：《虛擬人漫談｜開拓：產(chǎn)品篇（上）格局與環(huán)境》、《虛擬人漫談｜開拓：產(chǎn)品篇（下）產(chǎn)品與商業(yè)》。

01 虛擬人，新科技下的創(chuàng)世神話

想象一下，你是一個(gè)創(chuàng)世神，擔(dān)負(fù)著創(chuàng)世的KPI，你要做點(diǎn)什么？

我想，你大概應(yīng)該先構(gòu)思好主角，再扔給主角一個(gè)世界。

主角首先是一個(gè)擁有大腦軀干四肢，眼睛鼻子嘴的生物，姑且把這種生物叫做“人”。

但僅僅這樣還不夠，每個(gè)人的身上還要加一點(diǎn)點(diǎn)靈魂，有的多一點(diǎn)風(fēng)趣幽默，有的多一點(diǎn)審慎優(yōu)雅，各有不同，才會(huì)豐富多彩。

最后，再給他們一個(gè)世界，賦予天空和大地，賦予植被和海洋，再來點(diǎn)可愛的小動(dòng)物……這個(gè)創(chuàng)世任務(wù)的MVP，就差不多算完成了。

在人類的幼年時(shí)期，各個(gè)文明流域都相對(duì)獨(dú)立地出現(xiàn)了創(chuàng)世神話，上古中國(guó)有盤古開天辟地，女媧摶土造人；《圣經(jīng)》中有上帝七天創(chuàng)世，并在第六天創(chuàng)造了亞當(dāng)夏娃的故事……一直以來，人類都對(duì)自己的起源充滿了好奇與想象，創(chuàng)世神話，是人類對(duì)自身起源浪漫探索的開始。

這種對(duì)自身充滿探索和向往的欲望一直固化在我們的集體潛意識(shí)里，而在科技日漸發(fā)達(dá)的今天，我們正逐漸嘗試用科技來擬合一個(gè)“人”的誕生過程，這就是“虛擬人”的概念。

“虛擬人”并不是一個(gè)常規(guī)意義的有血有肉的人，而是一個(gè)綜合了多類技術(shù)而形成的，生活在數(shù)字世界中的“人”。虛擬人概念的催生，也正是得益于近些年來CG技術(shù)、人工智能技術(shù)等的不斷發(fā)展。虛擬人是一個(gè)技術(shù)的綜合體，是人類用科技擬合自身的浪漫探索與想象。

02 虛擬人是什么

虛擬人是什么呢？人類理解一個(gè)事物的時(shí)候往往喜歡首先探究它的概念。對(duì)于虛擬人這個(gè)概念，很多機(jī)構(gòu)試圖給出它的定義，或者是分類，比如有的認(rèn)為可以分成“虛擬人”、“數(shù)字人”、“數(shù)字虛擬人”，有的認(rèn)為可以分為“meta hunman”和“AI being”等等。

我本人沒有那么權(quán)威，但也想給虛擬人下一個(gè)定義，這個(gè)定義是什么呢？那就是：當(dāng)我提起“虛擬人”這個(gè)概念的時(shí)候，你的腦海里浮現(xiàn)出了什么？Bingo，那就是虛擬人！

其實(shí)，虛擬人本質(zhì)上是對(duì)人的一種模擬，對(duì)“人”這個(gè)概念的解構(gòu)，能幫助我們更好地認(rèn)識(shí)虛擬人。如何賦予虛擬人更有價(jià)值的生命，也許就要先從對(duì)“人”的探索開始。接下來，我們就從一個(gè)“人”本身來出發(fā)，看看人由哪幾個(gè)關(guān)鍵的部分組成。搞清楚了這個(gè)之后，針對(duì)每一個(gè)部分，再來聊一聊，虛擬人是如何通過多種多樣的技術(shù)來擬合人類的。

03 「身體+靈魂」+「世界+人設(shè)」

何為人？針對(duì)這個(gè)問題，我先拋出一個(gè)我認(rèn)知里的公式：

人=「身體+靈魂」+「世界+人設(shè)」

身體和靈魂，靈與肉，這是組成生命的唯二兩個(gè)部分，我想這個(gè)結(jié)論應(yīng)該是大多數(shù)人都能認(rèn)可的。我這里說的身體可以譯為body，主要是指我們自身上“有形”的那一部分，包括我們的軀干、四肢、手腳，以及看的見的表情動(dòng)作等；相對(duì)的，靈魂可以譯為soul，這里主要是指我們身上那些“無(wú)形”的部分，例如我們的感知、意識(shí)、知識(shí)、感情等。

有了身體與靈魂，我們可以說已經(jīng)得到了一個(gè)“人”了，但僅僅這樣還是不夠的。馬克思說過，“人是一切社會(huì)關(guān)系的總和”。一個(gè)人的社會(huì)屬性很重要，對(duì)于虛擬人來說也是如此。

對(duì)于虛擬人的社會(huì)屬性，我也把它簡(jiǎn)單概括為兩個(gè)方面：世界和人設(shè)。世界代表外部環(huán)境，虛擬人也需要一個(gè)生活的空間，一個(gè)舞臺(tái)，這是外界給TA的；人設(shè)代表內(nèi)部環(huán)境，虛擬人也需要有社會(huì)屬性，需要合適的外貌、技能、性格……這是TA回饋給外界的。
那么，以上這四個(gè)元素是如何作用的，從技術(shù)的角度又是如何實(shí)現(xiàn)的，且聽我細(xì)細(xì)道來。

1. 身體

從唯物的角度來看，身體是人必不可少的組成部分。這里，我把身體這個(gè)元素進(jìn)一步拆成兩個(gè)要素，分別是：靜態(tài)+動(dòng)態(tài)。

1）靜態(tài)

指人的外觀，對(duì)于真人而言，外觀有高矮胖瘦、膚色、男女等區(qū)別，而對(duì)于虛擬人而言，還增加了“畫風(fēng)”這一維度，虛擬人的外觀可以包括二次元、3D、超寫實(shí)，甚至賽博朋克等，目前，虛擬人的外形主要靠美術(shù)設(shè)計(jì)師和3D建模師共同實(shí)現(xiàn)。

2）動(dòng)態(tài)

指人的動(dòng)作，一般來說，人的動(dòng)態(tài)分為三個(gè)主要部分：

軀體動(dòng)作
面部表情
口型動(dòng)作

這一點(diǎn)對(duì)于真人和虛擬人都是比較類似的（虛擬人暫時(shí)不涉及動(dòng)耳朵、動(dòng)頭皮這種高級(jí)藝能）。虛擬人的動(dòng)態(tài)主要依靠驅(qū)動(dòng)技術(shù)來實(shí)現(xiàn)，目前驅(qū)動(dòng)技術(shù)主要有真人驅(qū)動(dòng)和AI驅(qū)動(dòng)兩種流派。

2. 靈魂

就像電影《心靈奇旅》里演的那樣，靈魂也是一個(gè)人的重要組成部分。對(duì)于虛擬人來說，靈魂主要是通過AI技術(shù)來打造的。這里，我把靈魂也分成了幾個(gè)要素：

1）感知

感知是人最生物性的層面，主要是和我們的五感有關(guān)，具體來說就是看、聽、說三個(gè)部分，分別由眼睛、耳朵、嘴來負(fù)責(zé)，結(jié)合到AI能力，就是CV、ASR、TTS。

2）認(rèn)知

認(rèn)知是在感知的基礎(chǔ)上進(jìn)一步形成的思考能力，這里我把認(rèn)知能力進(jìn)一步分成兩個(gè)方面，分別是理性的認(rèn)知能力和感性的認(rèn)知能力，其中，理性的認(rèn)知還可進(jìn)一步分為知識(shí)儲(chǔ)備、理解、決策三個(gè)層級(jí)的能力，對(duì)應(yīng)于AI中的KG、NLP、ML；感性的認(rèn)知主要指的是利用AI構(gòu)建的情感識(shí)別功能。

3）創(chuàng)造

就像我們小學(xué)的時(shí)候會(huì)先學(xué)習(xí)漢字，學(xué)習(xí)造句，再學(xué)習(xí)寫作文一樣，創(chuàng)造是更高一級(jí)的智力活動(dòng)，只有在進(jìn)行過大量的學(xué)習(xí)之后，才能進(jìn)行有效的創(chuàng)造，人如此，虛擬人亦如此，虛擬人的創(chuàng)造主要依賴于生成類的AI算法來進(jìn)行輸出。

3. 世界

對(duì)于一個(gè)人，我們要給他一個(gè)世界，一個(gè)舞臺(tái)，這個(gè)人才算有了一個(gè)全面展示自己的空間，虛擬人亦如此，這個(gè)世界就是虛擬人生活的空間。關(guān)于世界，這里我也~~（強(qiáng)行）~~分成兩個(gè)要素：

1）渲染

渲染就是讓這個(gè)虛擬的“人”呈現(xiàn)在我們面前，渲染技術(shù)分為離線渲染、實(shí)時(shí)渲染等，渲染技術(shù)的選型會(huì)直接影響虛擬人的呈現(xiàn)效果，你看到的是4k還是1080p與它有直接關(guān)系，渲染技術(shù)很大程度上決定了虛擬人演出的舞臺(tái)效果。

2）終端

虛擬人沒有物質(zhì)性的實(shí)體，目前階段我們必須借助終端才能看到它，現(xiàn)在可以承載虛擬人終端的設(shè)備數(shù)量越來越多，移動(dòng)端、IoT、VRAR等都有大量的空間。在未來，虛擬人技術(shù)也有可能真正和實(shí)體機(jī)器人進(jìn)行結(jié)合，變身成真正幾乎“以假亂真”的智能體。

4. 人設(shè)

我們總說明星有人設(shè)，其實(shí)每個(gè)人都有人設(shè)。人生在世，誰(shuí)又能時(shí)時(shí)刻刻保持自己永遠(yuǎn)都是一個(gè)耿直的real boy/real girl呢？我們?cè)诿鎸?duì)家人、朋友、同事時(shí)，甚至?xí)Q上不同的人設(shè)。對(duì)于虛擬人而言，這也是一樣的，而且由于虛擬人現(xiàn)在還比較「笨」，不能像真實(shí)的小精靈鬼們一樣多種人設(shè)無(wú)縫切換，因此，對(duì)于每一個(gè)虛擬人而言，打造一個(gè)專有場(chǎng)景的專有人設(shè)至關(guān)重要。

人設(shè)就是面向社會(huì)和公眾在特定場(chǎng)景下所表現(xiàn)出來的品牌、IP等，一個(gè)好的人設(shè)，不僅僅需要合適的外形風(fēng)格、肢體動(dòng)作，也需要合適的知識(shí)儲(chǔ)備、談吐風(fēng)格、甚至創(chuàng)作風(fēng)格。人設(shè)不是一個(gè)技術(shù)類的概念，它更偏向于產(chǎn)品和運(yùn)營(yíng)方面。

運(yùn)營(yíng)好一個(gè)IP類虛擬人，和經(jīng)紀(jì)公司運(yùn)營(yíng)一個(gè)明星的道理是一樣的，甚至有更大的難度，而擁有好的人設(shè)IP運(yùn)營(yíng)sense的企業(yè)在虛擬人賽道甚至元宇宙時(shí)代里脫穎而出的概率也是極大的。

以上，就解釋清楚了我自己對(duì)于虛擬人定義的邏輯框架：

人=「身體+靈魂」+「世界+人設(shè)」

其邏輯腦圖如下圖所示

接下來，我將依照這個(gè)邏輯分別簡(jiǎn)單展開陳述一下相關(guān)的技術(shù)向內(nèi)容。

04 身體

「身體」又被我進(jìn)一步分成了兩個(gè)要素：靜態(tài)與動(dòng)態(tài)。靜態(tài)就是我們的外殼，包括頭、軀干、四肢等，動(dòng)態(tài)就是身體的動(dòng)作，面部的表情，說話時(shí)的嘴形等。

對(duì)于一個(gè)真實(shí)的人來說，這一切都是來的自然而美妙，我們的身體由母親孕育而來，體內(nèi)有無(wú)數(shù)的神經(jīng)細(xì)胞控制著每一塊肌肉的運(yùn)動(dòng)，身體和靈魂是一個(gè)有機(jī)的整體。但對(duì)于虛擬人而言，這一切就沒那么自然了，全要倚賴人類的設(shè)計(jì)。其中，靜態(tài)外形的誕生主要依賴于各種建模技術(shù)；動(dòng)態(tài)的產(chǎn)生則要依賴各類驅(qū)動(dòng)技術(shù)。

對(duì)于虛擬人而言，想讓靜態(tài)和動(dòng)態(tài)聯(lián)動(dòng)起來，二者之間必須的一個(gè)橋梁就是綁定，通過對(duì)身體各個(gè)骨點(diǎn)的綁定，來達(dá)到控制各個(gè)身體部分動(dòng)起來的目的，如下圖所示：

1. 靜態(tài)

靜態(tài)外形的誕生主要依賴于各種建模技術(shù)，目前的建模方式主要有以下幾種：

3D軟件建模
儀器采集建模
自動(dòng)化建模

建模方式一：3D軟件建模

指通過3D建模軟件來人工塑造出3D的模型，該方式人工制作周期較長(zhǎng)，但效果可控，是目前應(yīng)用最廣泛的建模手段。

常用的3D建模軟件有很多，主要有以下幾類：

傳統(tǒng)3D建模：3Dmax、Maya、blender等
雕刻軟件：zbrush、blender等
程序化建模：houdini等

其中，傳統(tǒng)3D軟件主要負(fù)責(zé)制作低模，雕刻軟件可以輔助制作高模，限于篇幅原因，這里不做過多展開，總之，低模的特點(diǎn)是面數(shù)少，視覺效果一般，但所占計(jì)算資源少，運(yùn)行速度快；高模則正好相反，面數(shù)多，視覺效果好，但占用資源多，容易卡頓。

下面這塊磚頭很好的解釋了高模和低模的區(qū)別（雕刻軟件的「雕刻」二字含義就是精細(xì)的雕出坑坑洼洼的細(xì)節(jié)，使其看上去更真實(shí)）。

現(xiàn)代建模流程中一般會(huì)使用“烘培”的方法，簡(jiǎn)單來說就是底層結(jié)構(gòu)是低模，但是在低模的面上貼上高模的貼圖，類似于「披著羊皮的狼」，達(dá)到一種看上去視覺效果很好，運(yùn)行速度又快的效果。

手工建模有多種工作流程，主要的可以分成傳統(tǒng)模式、次世代模式兩種：

傳統(tǒng)模式：大概流程是先作低模，然后直接手工畫貼圖，結(jié)構(gòu)上的材質(zhì)等信息全靠人手作畫，這種方式只能做出比較卡通的模型，做不出特別精致的效果。
次世代模式：大概流程是先做低模，然后用zbrush等軟件做雕刻使其變成高模，然后再把各個(gè)面的貼圖拆分，再烘焙回去，這樣一來，模型結(jié)構(gòu)是低模的，上面的貼圖是逼真的高模渲染出來的，因此看上去既真實(shí)，又不卡內(nèi)存，次世代模式可以做出非常精致的模型。

3D建模技術(shù)涉及到計(jì)算機(jī)圖形學(xué)、3D美術(shù)等多方面技術(shù)，限于篇幅和水平原因，這里敘述的比較淺顯，日后如果有更多研究我會(huì)再進(jìn)行更細(xì)致的補(bǔ)充。
開個(gè)小差：很多小伙伴應(yīng)該都聽說過美術(shù)生會(huì)經(jīng)常畫人體素描，還會(huì)因此產(chǎn)生一些羞羞的聯(lián)想，但其實(shí)我作為一個(gè)超業(yè)余美術(shù)愛好者，深知人體真的是很難畫的，其難點(diǎn)主要有三：

人體真的很不規(guī)則，可以設(shè)想，你能見到的大部分物體都是比較規(guī)則的，想想你身邊的床、柜子、桌椅板凳……出于工業(yè)設(shè)計(jì)與制造的方便，大多我們用到的物品都是由立方體、圓柱體等基本圖形以及其組合而演變來的，而人體卻是復(fù)雜的骨骼外面包裹了復(fù)雜的肌肉，既不是全方的也不是全圓的，哪怕是一條簡(jiǎn)單的胳膊也包含了微弱的高低起伏，因此是非常難以概括的。
人的動(dòng)態(tài)非常豐富，一個(gè)人的肢體活動(dòng)是非常多變的，而多變的肢體活動(dòng)帶來的是肌肉的拉伸、擠壓和復(fù)雜的透視，因此，想做出非常自然的虛擬人姿態(tài)難度是很大的，需要對(duì)各個(gè)肌肉及其聯(lián)動(dòng)的數(shù)據(jù)權(quán)重進(jìn)行大量的微調(diào)，是需要非常豐富的建模及綁定經(jīng)驗(yàn)的。
人對(duì)人的敏感程度非常高，這就好比畫一棵樹，只要我畫了一堆樹葉上去，你可以完全不在乎樹葉畫的是不是和窗外那棵一模一樣，只要能看出來是樹，就可以了；對(duì)于人就不是這樣了，世界上有這么多人，卻很難找到兩個(gè)長(zhǎng)得一模一樣的人，人對(duì)于人臉的敏感程度非常高，稍微不像就能看的明顯，因此對(duì)于一些高保真的明星偶像的建模，也需要強(qiáng)大的美術(shù)功底才能支撐。

建模方式二：儀器采集建模

相比于手工建模，儀器采集建模是通過儀器掃描的方式來進(jìn)行建模。該方式成本較高，目前一般用于影視特效制作等領(lǐng)域居多。儀器采集建模技術(shù)分為靜態(tài)掃描建模和動(dòng)態(tài)光場(chǎng)重建：

靜態(tài)掃描模型技術(shù)是目前的主流，可具體細(xì)分為結(jié)構(gòu)光掃描重建與相機(jī)陣列掃描重建等。
動(dòng)態(tài)光場(chǎng)重建技術(shù)是目前重點(diǎn)發(fā)展的方向，不僅可以重建人物的幾何模型，還可一次性獲取動(dòng)態(tài)的人物模型數(shù)據(jù)，并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果，具有高視覺保真度。

許多關(guān)于虛擬人的行研報(bào)告里都有關(guān)于以上兩種技術(shù)的詳細(xì)介紹，例如國(guó)海證券的《數(shù)字虛擬人——科技人文的交點(diǎn)，賦能產(chǎn)業(yè)的起點(diǎn)》中，「圖表：主要建模技術(shù)概況」就概括的很好，有興趣的讀者可以找來看看。
建模方式三：自動(dòng)化建模

自動(dòng)化建模主要包含以下一些方式：

圖像采集建模：通過采集照片來還原人臉 3D 結(jié)構(gòu)
AI建模：利用AI算法直接生成人臉、身體等的建模方式

自動(dòng)化建模技術(shù)目前還不算特別成熟，建模結(jié)果到直接商用還有一段距離，不過，該類技術(shù)會(huì)大大降低建模的人力成本和時(shí)間成本。目前已經(jīng)出現(xiàn)了一些支持虛擬人創(chuàng)建的工具化平臺(tái)，如英偉達(dá)的 Omniverse Avatar、Epic Unreal的 MetaHuman Creator 等。尤其是2022年6月最新發(fā)布的Unreal的MetaHuman Creator ，其效果令人驚艷。

這些平臺(tái)的建模精度雖不足以建立超高質(zhì)量的模型，但能夠大幅降低虛擬人建模的成本，讓普通人也能快速擁有屬于自己的虛擬形象。隨著技術(shù)的發(fā)展，自動(dòng)化建模的效果還會(huì)變得越來越好。在未來，這種方式有可能直接實(shí)現(xiàn)虛擬人生產(chǎn)流程的自動(dòng)化，和元宇宙入口、虛擬分身、千人千面等概念聯(lián)系起來，擁有巨大的想象力。

2. 綁定

綁定技術(shù)是動(dòng)態(tài)與靜態(tài)聯(lián)動(dòng)的橋梁，簡(jiǎn)單來說就是給做好的虛擬小人在關(guān)鍵位置打上點(diǎn)，方便后續(xù)通過驅(qū)動(dòng)關(guān)鍵點(diǎn)來驅(qū)動(dòng)小人做出各種表情與姿態(tài)。關(guān)鍵點(diǎn)的位置遍布全身，例如軀干上，手肘、手腕、膝蓋、腳踝等關(guān)節(jié)就是關(guān)鍵點(diǎn)；面部的眼皮、嘴角、眉頭等關(guān)鍵位置也要打上關(guān)鍵點(diǎn)，讓虛擬小人“眉飛色舞”。

筆者自己曾學(xué)過簡(jiǎn)單的Maya骨骼綁定，簡(jiǎn)單來說，軀體部分的綁定的流程如下：

創(chuàng)建骨骼（就是做個(gè)火柴人出來）
IK等方式添加骨骼的聯(lián)動(dòng)（例如腳踝抬起時(shí)膝蓋也會(huì)自然彎曲）
為骨骼蒙皮（就是把虛擬人的「血肉」和「骨骼」的關(guān)鍵點(diǎn)一一對(duì)應(yīng)起來）
調(diào)整權(quán)重（讓虛擬人在運(yùn)動(dòng)時(shí)肌肉的形變更加自然）

面部的綁定流程和軀體整體而言差不多，只是面部需要人做很多表情，做表情的時(shí)候諸如眼皮、嘴形、眉頭、蘋果肌等都會(huì)進(jìn)行聯(lián)動(dòng)，因此面部綁定所需要的關(guān)鍵點(diǎn)更多更復(fù)雜。

隨著技術(shù)的發(fā)展，工業(yè)流程的演進(jìn)，綁定技術(shù)也在向著更便捷、更高效、更智能、邊際成本更低的方向發(fā)展，關(guān)于這一點(diǎn)可以參看的國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn)，賦能產(chǎn)業(yè)的起點(diǎn)》中的「圖表：綁定環(huán)節(jié)的技術(shù)革新」。

3. 動(dòng)態(tài)

完成以上兩步之后，我們就可以通過驅(qū)動(dòng)的方式讓虛擬人動(dòng)起來。整體而言，虛擬人可以分為交互型、非交互型兩種。
非交互型主要通過設(shè)置預(yù)制動(dòng)作來讓人物動(dòng)起來，類似于動(dòng)畫片的原理，不能實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。

交互型虛擬人是我們的重點(diǎn)。交互型虛擬人需要靠驅(qū)動(dòng)技術(shù)來驅(qū)動(dòng)動(dòng)作、表情、嘴形，這樣，虛擬人才能做到根據(jù)外界刺激進(jìn)行反饋的效果。交互型數(shù)字人的驅(qū)動(dòng)可以分為傳統(tǒng)驅(qū)動(dòng)方法和智能驅(qū)動(dòng)方法。

1）傳統(tǒng)驅(qū)動(dòng)方法

可以分成光學(xué)動(dòng)作捕捉、慣性動(dòng)作捕捉、Track 設(shè)備+IK 算法的動(dòng)作捕捉等方法，現(xiàn)階段，光學(xué)式和慣性式動(dòng)作捕捉占據(jù)主導(dǎo)地位。傳統(tǒng)驅(qū)動(dòng)方法一般需要”真人+動(dòng)捕設(shè)備”來進(jìn)行驅(qū)動(dòng)，這個(gè)后臺(tái)的真人又稱為“中之人”

2）智能驅(qū)動(dòng)方法

智能驅(qū)動(dòng)是指通過AI技術(shù)，例如CV、ASR、TTS等來對(duì)虛擬人進(jìn)行驅(qū)動(dòng)，該方式造價(jià)成本低，可以無(wú)限拓展，在未來有很大的想象空間。不過現(xiàn)階段AI技術(shù)有限，一般需要結(jié)合合適的場(chǎng)景，通過較多垂直領(lǐng)域的訓(xùn)練才能達(dá)到商業(yè)可用的效果。

關(guān)于這一部分，我同樣參考了國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn)，賦能產(chǎn)業(yè)的起點(diǎn)》中的「圖表：主要捕捉技術(shù)特性對(duì)比」和「圖表：主要驅(qū)動(dòng)技術(shù)概況」。我覺得這份材料的很多總結(jié)簡(jiǎn)潔到位，是一份非常不錯(cuò)的參考材料。

05 靈魂

其實(shí)用“靈魂”這個(gè)詞只是為了表達(dá)“身體與靈魂”這一概念的方便，其實(shí)我更想表達(dá)的是類似于“頭腦、意識(shí)”這樣的一個(gè)抽象的概念，與身體的“物質(zhì)性”相對(duì)應(yīng)，它屬于人的“非物質(zhì)”那一部分，我姑且把它稱為“靈魂”。關(guān)于「靈魂」我想分為3個(gè)層面來介紹，分別是感知、認(rèn)知和創(chuàng)造。虛擬人的「靈魂」主要需要依賴各種AI技術(shù)來進(jìn)行賦能。

1. 感知

感知是人最生物性的層面，主要是和我們的五感有關(guān)，具體來說就是看、聽、說三個(gè)部分；目前，直接的知覺、嗅覺等技術(shù)還不成熟，也許未來的腦機(jī)接口、體感設(shè)備等技術(shù)會(huì)在這些方面有所突破。

虛擬人的感知技術(shù)主要依賴于人工智能，在感知層面，人工智能技術(shù)當(dāng)下整體而言是成熟的，不成熟的部分短時(shí)間內(nèi)也難有重大突破，因此一般需要結(jié)合具體場(chǎng)景，通過合理的產(chǎn)品設(shè)計(jì)和精細(xì)化運(yùn)營(yíng)等方式來達(dá)到可用的程度。

看：計(jì)算機(jī)視覺CV

計(jì)算機(jī)視覺技術(shù)可以幫助虛擬人“看”到物體，并作出一定程度的簡(jiǎn)單分析。計(jì)算機(jī)視覺技術(shù)主要依靠深度學(xué)習(xí)中的CNN網(wǎng)絡(luò)，一般的技術(shù)應(yīng)用均為CNN的變種。CV技術(shù)主要有以下幾類應(yīng)用。

1）分類

給定一張輸入圖像，圖像分類任務(wù)旨在判斷該圖像所屬類別，例如，檢測(cè)出一張照片中的主角是貓還是狗等，常用的分類網(wǎng)絡(luò)包括AlexNet、VGG-16/VGG-19、ResNet等

2）檢測(cè)

在圖像分類的基礎(chǔ)上，給出圖像中的目標(biāo)包圍盒，常用的目標(biāo)檢測(cè)算法包括：

基于候選區(qū)域的目標(biāo)檢測(cè)算法，如R-CNN、Fast R-CNN、Faster R-CNN等
基于直接回歸的目標(biāo)檢測(cè)算法：如YOLO、SSD等

3）分割

可以進(jìn)一步分為語(yǔ)義分割、實(shí)例分割，均可理解為更加精細(xì)的檢測(cè)任務(wù)，常用算法包括Mask R-CNN等。

下圖非常形象地表示出了CV的幾種關(guān)鍵任務(wù)，分別是：

分類
檢測(cè)
語(yǔ)義分割
實(shí)例分割

CV類技術(shù)有非常廣泛的應(yīng)用，例如人臉識(shí)別、姿態(tài)識(shí)別、障礙物識(shí)別等，這些具體的應(yīng)用技術(shù)均可以和虛擬人賽道進(jìn)一步結(jié)合來滿足虛擬人的不同應(yīng)用場(chǎng)景。

聽：語(yǔ)音識(shí)別ASR

將聽到的聲音轉(zhuǎn)化成語(yǔ)言的技術(shù)，主要分為聲音接收和聲音識(shí)別兩個(gè)部分。
聲音接受部分主要依賴于硬件、環(huán)境及聲源，一般來說，較高級(jí)的聲音接收設(shè)備、噪音較小的環(huán)境，發(fā)音標(biāo)準(zhǔn)且音量適中的聲源均會(huì)提升聲音接收的質(zhì)量。

聲音識(shí)別部分主要依賴于機(jī)器學(xué)習(xí)及其中的深度學(xué)習(xí)等AI技術(shù)，主要可分為傳統(tǒng)方法和端到端方法：

傳統(tǒng)方法：需要先提取聲音信息特征，例如MFCC、LPCC等，這里主要涉及信號(hào)處理相關(guān)知識(shí)；提取特征后再采用HMM、語(yǔ)言模型等綜合得出識(shí)別結(jié)果。
端到端方式：主要依托于深度學(xué)習(xí)技術(shù)，由于語(yǔ)音本身是具有時(shí)序性的(倒放的語(yǔ)音很難聽懂)，因此語(yǔ)音識(shí)別主要依托以RNN為基礎(chǔ)的時(shí)序類深度學(xué)習(xí)模型，例如其衍生出的LSTM、GRU等，來完成語(yǔ)音到文字的轉(zhuǎn)化工作。

說：語(yǔ)音合成TTS

把文字轉(zhuǎn)化成語(yǔ)音播放出來的技術(shù)就是TTS技術(shù)，能形成自然、流暢、動(dòng)聽的聲音是TTS技術(shù)所追求的目標(biāo)。

從技術(shù)的角度來看，TTS系統(tǒng)主要分為前端系統(tǒng)和后端系統(tǒng)：
前端系統(tǒng)負(fù)責(zé)對(duì)文字進(jìn)行分析，并形成一份“發(fā)音指南”，里面包括每個(gè)字的讀音音素、連讀、重音、停頓、多音字讀法等，這份“發(fā)音指南”就像一個(gè)發(fā)音“說明書”，會(huì)傳給后端。

后端系統(tǒng)按照前端生成的“發(fā)音說明書”，負(fù)責(zé)把聲音合成出來，目前主流的后端合成技術(shù)有兩大類，分別是“拼接法”和“參數(shù)法”。

拼接法：先通過真人錄制聲音，再根據(jù)“說明書”把需要的聲音片段拼合起來，這種方法優(yōu)點(diǎn)是聲音本身自然動(dòng)聽，缺點(diǎn)是人力成本高，且流暢度容易出現(xiàn)問題。
參數(shù)法：用聲音信號(hào)的參數(shù)，如基頻、頻譜等來表示聲音，將“聲音說明書”中每一個(gè)音素的“參數(shù)”找出來，合成對(duì)應(yīng)的聲音；參數(shù)法的優(yōu)點(diǎn)是成本低，缺點(diǎn)是機(jī)械感比較明顯，不夠自然，不過該方法會(huì)隨著技術(shù)發(fā)展效果越來越好，應(yīng)用范圍也會(huì)越來越廣；目前比較主流的參數(shù)法一般是使用端到端的方法，例如Tacotron2、WaveNet等。

2. 認(rèn)知

認(rèn)知是在感知的基礎(chǔ)上進(jìn)一步形成的思考能力，這里我把認(rèn)知能力進(jìn)一步分成兩個(gè)方面，分別是理性的認(rèn)知能力和感性的情感識(shí)別能力。

理性認(rèn)知能力

1）知識(shí)：知識(shí)圖譜KG

知識(shí)主要依賴于知識(shí)圖譜技術(shù)。知識(shí)圖譜是給知識(shí)形成的一個(gè)以三元組

實(shí)體<—>關(guān)系<—>實(shí)體

為核心的邏輯圖，例如以中國(guó)城市為主題的邏輯圖，就是下列形態(tài)：

其中，“中國(guó)”、“北京”、“遼寧”、“沈陽(yáng)”等都是實(shí)體，“是直轄市”、“是省”、“是省會(huì)”等就是關(guān)系。

知識(shí)圖譜可以在任意知識(shí)領(lǐng)域運(yùn)用，例如金融業(yè)有銀行理財(cái)知識(shí)圖譜、保險(xiǎn)知識(shí)圖譜等；農(nóng)業(yè)領(lǐng)域有動(dòng)植物知識(shí)圖譜、農(nóng)作物知識(shí)圖譜等；一個(gè)好的知識(shí)圖譜就是一個(gè)邏輯清晰的知識(shí)寶庫(kù)。

知識(shí)圖譜可以以圖數(shù)據(jù)庫(kù)、三元組數(shù)據(jù)庫(kù)等形式進(jìn)行存儲(chǔ)。如果把知識(shí)圖譜“喂”給一個(gè)虛擬人，該虛擬人就有了這個(gè)方面的豐富知識(shí)。例如，銀行業(yè)務(wù)導(dǎo)引虛擬人就需要非常豐富的銀行業(yè)務(wù)知識(shí)，文旅導(dǎo)游虛擬人就需要對(duì)導(dǎo)游相關(guān)知識(shí)非常了解……

知識(shí)圖譜能快速賦予虛擬人以某一方面的專業(yè)知識(shí)，堪比《西游記》中的孫悟空吃掉一本書立刻就能掌握書中內(nèi)容了。知識(shí)圖譜的完善對(duì)于虛擬人的應(yīng)用意義非凡，而知識(shí)圖譜本身技術(shù)難度不大，其完善主要的門檻在于對(duì)于垂直細(xì)分行業(yè)的深度理解。

2）理解：NLP

通過感知，虛擬人可以獲得外界的信息。通過CV「看到」的信息，通過ASR「聽到」的信息，都可以轉(zhuǎn)化成語(yǔ)言文字的形態(tài)。但僅有感知還是不夠的，虛擬人不僅要能獲取信息，還需要理解這些信息所代表的真正意圖，明白感知到的信息的含義，才能做出下一步的動(dòng)作。

NLP技術(shù)的全稱是自然語(yǔ)言處理技術(shù)，重點(diǎn)就是理解語(yǔ)義信息，主要包括詞法分析、句法分析、語(yǔ)義分析、情感分析等幾個(gè)部分。通過NLP技術(shù)，可以做以下事情：

對(duì)一句話進(jìn)行分詞（主要針對(duì)中文等語(yǔ)言，英文就不用了）
分析出每個(gè)詞的詞性，判斷是名詞還是動(dòng)詞，是形容詞還是副詞等
分析出句子的語(yǔ)法結(jié)構(gòu)，例如主謂賓等
分析出各個(gè)部分的施事受事關(guān)系，例如“我打你”，“我”是施事，“你”是受事
通過語(yǔ)氣詞、“喜歡”、“討厭”等關(guān)鍵詞分析出句子的情感傾向

通過以上種種環(huán)節(jié)，虛擬人便可以通過NLP技術(shù)來理解感知到的信息的含義，識(shí)別出信息的意圖，便于后續(xù)做出進(jìn)一步的反饋等交互動(dòng)作。

3）決策：數(shù)據(jù)智能ML

決策能力是人的一項(xiàng)重要素質(zhì)，對(duì)于虛擬人來說，也可以通過AI的方式提升決策能力，而這一能力的提升主要依賴的就是各種數(shù)據(jù)智能模型。

簡(jiǎn)單來說，數(shù)據(jù)智能就是通過搜集某一問題的大量歷史數(shù)據(jù)，再通過機(jī)器學(xué)習(xí)的某個(gè)算法擬合出該問題的函數(shù)模型，并依據(jù)函數(shù)模型對(duì)未來做出預(yù)測(cè)與決策。例如，可以通過某一產(chǎn)品的歷史銷量分析出該產(chǎn)品未來的銷量走勢(shì)；可以根據(jù)球隊(duì)的歷史勝負(fù)情況來預(yù)測(cè)未來某一場(chǎng)球賽的結(jié)果等，宛如那年夏天的章魚保羅。

常用的可以用于決策建模的機(jī)器學(xué)習(xí)算法非常多，從有無(wú)標(biāo)簽可以分為有監(jiān)督、無(wú)監(jiān)督、半監(jiān)督；從任務(wù)類型可以分為分類、回歸、聚類、時(shí)序預(yù)測(cè)等。經(jīng)典的機(jī)器學(xué)習(xí)算法很多，例如決策樹、支持向量機(jī)、XGBoost等等，篇幅原因不做具體展開，感興趣的讀者可以看一看周志華老師的西瓜書。

對(duì)于數(shù)據(jù)智能任務(wù)而言，模型其實(shí)并不難，現(xiàn)階段真正難的是是否有足夠多的有價(jià)值的數(shù)據(jù)?；ヂ?lián)網(wǎng)、金融等企業(yè)相對(duì)而言有效數(shù)據(jù)的收集意識(shí)較強(qiáng)，但很多傳統(tǒng)企業(yè)，收集數(shù)據(jù)的意識(shí)還較弱，目前也正在數(shù)字化轉(zhuǎn)型當(dāng)中。隨著數(shù)字化轉(zhuǎn)型的進(jìn)程，虛擬人也會(huì)有越來越多的應(yīng)用。

情感識(shí)別能力

人不僅需要理性，也需要感性。親情、友情、愛情，人與人之間的交往往往是感性大于理性的。對(duì)于虛擬人而言，除了理性方面的知識(shí)、理解、決策等能力，對(duì)于情感的把握也是應(yīng)該具備的品質(zhì)。能夠進(jìn)行情感識(shí)別、情感反饋的虛擬人，在目前還是藍(lán)海的陪伴型虛擬人賽道有著巨大的用戶價(jià)值和商業(yè)價(jià)值。

情感識(shí)別是一項(xiàng)綜合的能力，例如，通過CV技術(shù)，虛擬人可以分辨人的表情是開心還是難過；通過ASR技術(shù)，虛擬人可以通過聲紋來分析說話人的說話語(yǔ)氣是高興還是壓抑，甚至是憤怒；通過NLP技術(shù)，虛擬人可以分析說話人說話的內(nèi)容中，是否含有強(qiáng)烈的表達(dá)態(tài)度的語(yǔ)氣詞，例如“喜歡/不喜歡”、“垃圾”、“太贊了”……

心理學(xué)家羅伯特·普拉切克提出了情緒輪，內(nèi)含8種基本情緒，可以作為情緒識(shí)別標(biāo)簽設(shè)計(jì)的依據(jù)。

情感識(shí)別的能力目前已經(jīng)在輿情控制、課堂教學(xué)等領(lǐng)域得到了一定的應(yīng)用，但整體而言現(xiàn)階段還不夠成熟，還有巨大的探索空間。

3. 創(chuàng)造

就像我們小學(xué)的時(shí)候會(huì)先學(xué)習(xí)漢字，學(xué)習(xí)造句，再學(xué)習(xí)寫作文一樣，創(chuàng)造是更高一級(jí)的智力活動(dòng)。只有在進(jìn)行過大量的學(xué)習(xí)之后，才能進(jìn)行有效的創(chuàng)造，人如此，虛擬人亦如此。

目前，“創(chuàng)造”主要是用在虛擬人的創(chuàng)作領(lǐng)域，例如AI作畫、作詩(shī)、寫新聞稿、開放式聊天等等，主要依賴的是以GAN為基礎(chǔ)的生成式模型。

整體而言，創(chuàng)造類技術(shù)目前成熟度不高，僅在一些規(guī)范性比較強(qiáng)的領(lǐng)域如新聞稿等有一些成功案例，更多的應(yīng)用還集中在概念展示階段，距離真正大規(guī)模商用，還有一段距離。距離產(chǎn)生美，這也給虛擬人未來的潛力提供了巨大的想象空間。

06 世界與人設(shè)

之所以分成「身體+靈魂」、「世界+人設(shè)」，是因?yàn)榍皟蓚€(gè)代表個(gè)體，后兩個(gè)代表外界。而在后兩個(gè)元素中，「世界」是外面給我們的，是由外而內(nèi)的，人設(shè)是我們給外面的，是由內(nèi)而外的，美妙嗎？非常美妙。

1. 世界

世界，就是虛擬人生活的周圍環(huán)境。在有了一個(gè)虛擬人之后，我們還需要給它一個(gè)載體，一個(gè)舞臺(tái)，讓虛擬人走到臺(tái)前來發(fā)揮它的價(jià)值。構(gòu)建虛擬人世界的技術(shù)，我想談兩個(gè)點(diǎn)，分別是渲染和終端。

1）渲染

渲染，就是把做好的模型呈現(xiàn)在屏幕上的過程，或者說需要通過數(shù)學(xué)計(jì)算的方式，把做好的模型變成計(jì)算機(jī)屏幕上一個(gè)個(gè)像素點(diǎn)的顯示RGB值，來完成實(shí)際顯示的過程。渲染主要涉及到的技術(shù)是計(jì)算機(jī)圖形學(xué)，這一過程需要大量的關(guān)于頂點(diǎn)位置、顏色、光照等的計(jì)算，也會(huì)消耗大量的計(jì)算資源。

渲染主要可以分為離線渲染和實(shí)時(shí)渲染，其中，離線渲染主要用在電影、廣告等可以提前做好無(wú)需交互的場(chǎng)景里，允許花費(fèi)較長(zhǎng)時(shí)間，因此效果很好，但成本也很高；實(shí)時(shí)渲染主要用在游戲、直播等需要實(shí)時(shí)互動(dòng)的場(chǎng)景里，對(duì)時(shí)間比較敏感，因此效果略弱于離線渲染。

Unity和Unreal以往都是用來制作游戲的游戲引擎，二者都是實(shí)時(shí)渲染的利器。雖說比不上離線渲染的效果，但二者的制作水平也在不斷升級(jí)，目前新出的Unreal5，其能夠達(dá)到的渲染效果已經(jīng)非常優(yōu)質(zhì)，實(shí)時(shí)渲染的效果正在一步步向離線渲染逼近。

（注：本圖來自國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn)，賦能產(chǎn)業(yè)的起點(diǎn)》）

另外，近些年來發(fā)展的PBR技術(shù)對(duì)于虛擬人的發(fā)展也至關(guān)重要。PBR 是基于真實(shí)物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合，它使得渲染效果突破了塑料感。該項(xiàng)技術(shù)使虛擬數(shù)字人皮膚紋理變得真實(shí)，進(jìn)而有助于突破恐怖谷效應(yīng)。常見的幾款 3D 引擎，如 UE4，Unity 3D 5等，均有了各自的 PBR 實(shí)現(xiàn)。

實(shí)時(shí)渲染技術(shù)的發(fā)展可以讓虛擬人在交互的環(huán)境下提升用戶體驗(yàn)，對(duì)于VR、AR等賽道的普及與發(fā)展有極大的助力。
2）終端

當(dāng)前，虛擬人沒有實(shí)體，是需要依托屏幕來顯示的，因此虛擬人需要生活在終端里，虛擬人如果有實(shí)體，那就不叫虛擬人，叫機(jī)器人了。其實(shí)，現(xiàn)在已經(jīng)有材料等領(lǐng)域的科學(xué)家在研究非常類似于人表皮組織的材料，以期待能做出幾乎以假亂真的“人形機(jī)器人”，該項(xiàng)技術(shù)近期也取得了一定的突破性成果。2022年6月，日本東京大學(xué)宣布，世界上首次成功開發(fā)出人工培養(yǎng)的“活”皮膚覆蓋的手指型機(jī)器人。但該類技術(shù)距離真正成熟還有很遙遠(yuǎn)的距離，而且也面臨著社會(huì)倫理等方面的巨大挑戰(zhàn)。

總的來說，最近一段時(shí)間，虛擬人還是要深度依賴電子終端的。隨著科技的發(fā)展，虛擬人能夠活躍的終端種類也越來越豐富，我簡(jiǎn)單總結(jié)了一些我能想到的各類終端，分類并不嚴(yán)謹(jǐn)，只是一個(gè)大致的羅列：

常規(guī)終端：手機(jī)端、PC端、電視大屏端
IoT：智能家居、智能座艙等終端
產(chǎn)業(yè)終端：銀行導(dǎo)覽、商場(chǎng)導(dǎo)購(gòu)等
新終端：VR、AR、裸眼3D全息等

2. 人設(shè)

最后，再來聊一聊人設(shè)。

和上面的內(nèi)容相比，人設(shè)是一個(gè)非技術(shù)的概念，按說不應(yīng)該放在「技術(shù)篇」來講。但是它偏巧又很重要。我們每個(gè)人都有一個(gè)最本真的“我”和一個(gè)社會(huì)的“我”，我們面對(duì)不同的人會(huì)帶上不同的面具，這一點(diǎn)對(duì)于虛擬人來說是一樣的。在技術(shù)整體水平基本無(wú)法拉開差距的時(shí)候，對(duì)于一個(gè)虛擬人產(chǎn)品而言，更重要的就是是否有一個(gè)好的人設(shè)。

不同場(chǎng)景、不同設(shè)定的虛擬人，其人設(shè)是完全不同的，這給產(chǎn)品、運(yùn)營(yíng)、技術(shù)都帶來了很大的挑戰(zhàn)。

好的虛擬人一定是一個(gè)好產(chǎn)品。一個(gè)好的產(chǎn)品，有三個(gè)要素是必不可少的，分別是敲門磚，護(hù)城河，生命線。敲門磚決定門檻，護(hù)城河決定優(yōu)勢(shì)，生命線決定盈利。對(duì)于虛擬人而言，這三個(gè)概念可以這樣理解：

1）敲門磚

敲門磚就是好的人設(shè)。虛擬人對(duì)于人設(shè)的塑造非常重要，如果是一個(gè)虛擬偶像，那就需要好的IP、靚麗的外形、活潑的肢體語(yǔ)言，甚至是唱跳、創(chuàng)作等能力；而如果是一個(gè)銀行的虛擬員工，TA就應(yīng)該像萬(wàn)千打工人一樣，簡(jiǎn)約、專業(yè)，可靠……總之，是否有一個(gè)和場(chǎng)景搭配的外形設(shè)計(jì)，是否有足夠切合的性格設(shè)計(jì)，是否能夠依托于一個(gè)IP或者品牌，都對(duì)虛擬人的后續(xù)運(yùn)營(yíng)工作至關(guān)重要。

2）護(hù)城河

優(yōu)秀的人設(shè)，要結(jié)合扎實(shí)的產(chǎn)品設(shè)計(jì)和優(yōu)質(zhì)的技術(shù)實(shí)現(xiàn)才有可能達(dá)到。不同的人設(shè)，其產(chǎn)品的細(xì)節(jié)設(shè)計(jì)也是不同的：一個(gè)“小女孩”的人設(shè)說話一般是俏皮的，一個(gè)職員的人設(shè)說話一般是專業(yè)親切的，這對(duì)于產(chǎn)品話術(shù)的設(shè)計(jì)提出了考驗(yàn)。

從身體外形的角度，虛擬人可以分為二次元、類人、超寫實(shí)、未來科幻等不同風(fēng)格；從人格靈魂上來講，一個(gè)銀行引導(dǎo)型虛擬人需要具備豐富的金融行業(yè)知識(shí)、一個(gè)虛擬偶像需要具備唱歌跳舞，甚至是歌曲創(chuàng)作等能力；一個(gè)陪伴老人的虛擬人，可能需要豐富的醫(yī)療、保健方面知識(shí)和對(duì)情感的感知與回饋……

人設(shè)的打造既要滿足產(chǎn)品的需求，又要兼顧到技術(shù)的邊界……可以說，一個(gè)成功的虛擬人IP的打造，是非常不易的。

3）生命線

對(duì)于任何一個(gè)偶像類的強(qiáng)人設(shè)型虛擬人，其二創(chuàng)能力非常重要，二創(chuàng)能力可以讓用戶自發(fā)參與其中，形成優(yōu)質(zhì)的生態(tài)圈，同時(shí)也對(duì)后續(xù)的商業(yè)化變現(xiàn)有巨大增益；好的二創(chuàng)離不開運(yùn)營(yíng)的引導(dǎo)支持，這對(duì)于虛擬人來說也至關(guān)重要，可以說，二創(chuàng)能力就是虛擬人產(chǎn)品的生命線，決定了虛擬人產(chǎn)品是石沉大海還是強(qiáng)勢(shì)出圈，是否能可持續(xù)發(fā)展。

關(guān)于人設(shè)，很多人認(rèn)為虛擬人的一個(gè)優(yōu)勢(shì)就是不會(huì)翻車，畢竟近期劣跡藝人太多，很多公司都因?yàn)榱盂E藝人受到了影響，虛擬人似乎是一個(gè)零差評(píng)零緋聞的不錯(cuò)選項(xiàng)。但是其實(shí)，對(duì)于虛擬人來說，運(yùn)營(yíng)翻車的例子也比比皆是，這也對(duì)虛擬人的運(yùn)營(yíng)人員提出了巨大考驗(yàn)。

07 趨勢(shì)&邊界

虛擬人賽道是一個(gè)技術(shù)的綜合體，任何一項(xiàng)技術(shù)的不完善、不成熟，都制約著虛擬人的“類人”程度?？偟膩碚f，虛擬人有三條技術(shù)路徑：

純?nèi)斯?/li>
人工+AI
純AI

純?nèi)斯さ姆绞匠杀具^高，純AI的方式技術(shù)暫不支持，目前基本采用的是人工+AI的方式，但隨著科技的進(jìn)步，這一流程中的AI部分占比會(huì)越來越多，虛擬人整體的制作流程也會(huì)成本更低、時(shí)間更短。

對(duì)于虛擬人賽道的發(fā)展，我們當(dāng)下要做的事情是：

明確技術(shù)邊界，并知道不同環(huán)節(jié)不同技術(shù)下的效果、成本和收益
找到合適的場(chǎng)景，通過場(chǎng)景本身的制約、細(xì)分領(lǐng)域的打磨來完成應(yīng)用
積極擁抱技術(shù)創(chuàng)新

邊界代表當(dāng)下，趨勢(shì)代表未來，我在這里想淺盤一下主要的技術(shù)，并對(duì)未來進(jìn)行一些分析。

1. 邊界與當(dāng)下

1）傳統(tǒng)方法仍有局限

建模（maya、3Dmax等）、驅(qū)動(dòng)（中之人動(dòng)捕）、渲染（Unity、Unreal等）方面，已有的非AI類的工具、技術(shù)均已較為成熟，但依舊存在著一些問題，例如成本較高、制作周期長(zhǎng)、實(shí)時(shí)渲染效果有限且對(duì)設(shè)備要求高、過于依賴中之人等。

AI等智能化、自動(dòng)化等技術(shù)的發(fā)展正在改變以上領(lǐng)域的流程，未來隨著智能化和自動(dòng)化的發(fā)展，建模、驅(qū)動(dòng)、渲染等工作會(huì)朝著成本更低、時(shí)間更短、門檻更低、效果更好的方向發(fā)展。成本的下探至關(guān)重要，成本及門檻下探到一定程度，虛擬人的應(yīng)用場(chǎng)景才會(huì)由B端過渡到C端。

2）AI能力有待提高

AI能夠賦予虛擬人以大腦，AI技術(shù)水平的發(fā)展直接決定了這個(gè)虛擬人是否“弱智”。目前，AI能力的成熟度尚不平均，感知類技術(shù)如CV、ASR、TTS等技術(shù)已經(jīng)能夠做到較好的水平，一些AI公司如科大訊飛等也均有相關(guān)能力的提供，成熟度較高；而認(rèn)知能力需要深度的業(yè)務(wù)知識(shí)加成和大量的訓(xùn)練數(shù)據(jù)支撐；情感類能力、創(chuàng)作類技能目前尚不成熟，距離大規(guī)模商業(yè)落地還有一段距離，目前需要依賴精細(xì)化的產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng)。

3）其他需要關(guān)注的點(diǎn)

我們需要關(guān)注的點(diǎn)不僅僅是AI、CG等高度相關(guān)的技術(shù)，對(duì)于周邊的技術(shù)例如基礎(chǔ)設(shè)施建設(shè)、VRAR技術(shù)、芯片及算力、邊緣計(jì)算能力等的發(fā)展，也需要高度重視；同時(shí)，偏產(chǎn)品和運(yùn)營(yíng)維度來說，對(duì)于IP設(shè)計(jì)、人物設(shè)計(jì)、二創(chuàng)運(yùn)營(yíng)等能力，也需要引起足夠重視。

2. 趨勢(shì)與未來

未來虛擬人相關(guān)技術(shù)的發(fā)展將會(huì)有幾個(gè)大的趨勢(shì)：

視覺效果更加美觀、流暢、炫酷，這依賴于計(jì)算機(jī)圖形學(xué)、硬件計(jì)算能力、顯示設(shè)備、建模及渲染工具等的發(fā)展。
AI等智能化技術(shù)發(fā)展，賦予虛擬人越來越聰明、人性化的大腦，越來越能夠像一個(gè)真實(shí)的人一樣和人類交流，去體察、決策、陪伴。其中，AI要向兩個(gè)方向重點(diǎn)發(fā)展，一是具體行業(yè)的know-how積累，二是情感型陪伴能力的提升。
工作流朝智能化、自動(dòng)化方向發(fā)展，流程縮短、成本降低，若能端到端的生成可用的虛擬人，將為虛擬人的低門檻大批量制作提供可能。
隨著VR、AR、IoT等賽道的發(fā)展，虛擬人可以活躍在越來越多的終端上，隨之帶來的就是更多的應(yīng)用場(chǎng)景和能力挑戰(zhàn)。
當(dāng)成本與門檻足夠低時(shí)，就有了人均一個(gè)甚至人均多個(gè)虛擬人的可能。在元宇宙中，虛擬人可以作為NPC、也可以做真人的第二分身，之后無(wú)論是結(jié)合千人千面、還是結(jié)合NFT等概念，都有了無(wú)限的想象空間。
未來有可能出現(xiàn)真正的類人機(jī)器人形態(tài)的人工智能體，屆時(shí)虛擬人將不僅能夠生活在屏幕中，還會(huì)有一個(gè)實(shí)實(shí)在在的軀體，但就像克隆技術(shù)一樣，這樣的技術(shù)雖然能夠代表AI、材料、醫(yī)療等諸多學(xué)科的科技前沿，但是否符合倫理道德，是否能夠商用，將是一個(gè)大大的問號(hào)。

在網(wǎng)上，看到了百度李士巖的一段話，很有趣。他認(rèn)為：數(shù)字人是基于計(jì)算機(jī)平臺(tái)的交互載體，將呈現(xiàn)段落式發(fā)展。

當(dāng)下所處的平面計(jì)算時(shí)代，主要以服務(wù)型與表演型數(shù)字人應(yīng)用為主，下一個(gè)階段是更大的時(shí)代，暫時(shí)定義為空間計(jì)算時(shí)代?？臻g計(jì)算時(shí)代計(jì)算平臺(tái)呈現(xiàn)的信息不再是平面的，而是實(shí)時(shí)三維的，屆時(shí)核心用戶的行為大概會(huì)有社交、獲取商品、信息消費(fèi)、獲得服務(wù)四類，那么能夠提供個(gè)性化交互、能提供情緒價(jià)值和內(nèi)容價(jià)值的虛擬分身是必選項(xiàng)，能夠提供人文情感關(guān)懷、又能保證效率的服務(wù)型數(shù)字人則是另一種應(yīng)用形態(tài)。在未來的空間計(jì)算時(shí)代，一定會(huì)產(chǎn)生比現(xiàn)在平面計(jì)算時(shí)代更大的市場(chǎng)。

08 結(jié)語(yǔ)

一不小心就廢話了很多內(nèi)容，其實(shí)之所以想寫這個(gè)主題，原因就是我對(duì)虛擬人這個(gè)賽道很感興趣。而之所以對(duì)虛擬人賽道感興趣，主要是以下幾個(gè)原因：

一是從專業(yè)的角度來講，我過去一直是工作在AI賽道的，人工智能的本質(zhì)是對(duì)智能體的模擬，虛擬人技術(shù)是對(duì)人工智能技術(shù)的綜合應(yīng)用，也是人工智能體的初級(jí)階段，這讓我對(duì)TA產(chǎn)生了極大的好奇，很想一探窺之；

二是出于個(gè)人的一點(diǎn)私心，本人雖是理科生，但對(duì)人文科學(xué)與藝術(shù)領(lǐng)域一直非常感興趣；虛擬人賽道和許多科技類賽道不同，更像是科技與人文的交點(diǎn)，在科技發(fā)展的同時(shí)也充斥了關(guān)于藝術(shù)、文化、倫理等的討論，讓我心向往之；

三是一點(diǎn)無(wú)厘頭的想象，我從小就是一個(gè)幻想能力極強(qiáng)的小孩，被二次元深深吸引，我小的時(shí)候很喜歡看《數(shù)碼寶貝》這類動(dòng)畫片，倒是挺希望有一天能和這些電視里的英雄說說話的。就當(dāng)下而言，試問如果熊大熊二喜羊羊能開口說話，和孩子來一番互動(dòng)教學(xué)，是不是也美滋滋的？

出于以上一些原因，我盡個(gè)人的綿薄之力對(duì)虛擬人進(jìn)行了一個(gè)調(diào)研，并且想把調(diào)研的內(nèi)容進(jìn)行梳理，希望能給讀者帶來一點(diǎn)點(diǎn)收獲。

對(duì)于虛擬人這個(gè)賽道，我自己也是一個(gè)初學(xué)者，目前尚不是行業(yè)內(nèi)的工作者，以上內(nèi)容及觀點(diǎn)主要是通過自學(xué)以及基于網(wǎng)絡(luò)材料的調(diào)研形成的。水平非常非常有限，很希望各位業(yè)內(nèi)人士能夠指出我的錯(cuò)誤和不足，我都會(huì)悉心聽取。
十分感謝大家。

參考材料：

國(guó)海證券《數(shù)字虛擬人——科技人文的交點(diǎn)，賦能產(chǎn)業(yè)的起點(diǎn)》
頭豹研究院《2022年中國(guó)虛擬人產(chǎn)業(yè)發(fā)展白皮書》
天風(fēng)證券《虛擬數(shù)字人:元宇宙的主角破圈而來》
華麗智庫(kù)《全球時(shí)尚虛擬人物研究報(bào)告》
中銀證券《虛擬人行業(yè)深度研究》
中國(guó)傳媒大學(xué)《中國(guó)虛擬數(shù)字人影響力指數(shù)報(bào)告》2021年度
艾媒咨詢的《2022年中國(guó)虛擬人行業(yè)發(fā)展研究報(bào)告》
頭豹研究院《2022年AI驅(qū)動(dòng)虛擬人行業(yè)概覽》
量子位《虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告》
安信證券《元宇宙之中國(guó)優(yōu)勢(shì):虛擬數(shù)字人，分發(fā)與流通環(huán)節(jié)的新戰(zhàn)場(chǎng) 》
安信證券《虛擬數(shù)字人的長(zhǎng)短期展望:IP 與賦能》
達(dá)摩院《阿里小蜜數(shù)字人互動(dòng)決策的探索與落地》

PS：部分資料源自網(wǎng)絡(luò)，目的是為了更好的說明所講的問題，如有侵權(quán)可以聯(lián)系我進(jìn)行刪除，不勝感激。

本文由 @進(jìn)擊的唐猜原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

光希

公眾號(hào)：光嶼工作室

4篇作品 12571總閱讀量

小紅書，要量產(chǎn)AI美女了？

05-102318 瀏覽

玩轉(zhuǎn)用戶增長(zhǎng)——用戶留存的秘訣（中）

11-163754 瀏覽

互聯(lián)網(wǎng)大廠春招回暖

03-023137 瀏覽

企業(yè)架構(gòu)4——業(yè)務(wù)架構(gòu)之商業(yè)模式、價(jià)值鏈、業(yè)務(wù)模型

07-277336 瀏覽

9字心法談產(chǎn)品架構(gòu)該怎么設(shè)計(jì)？

03-226933 瀏覽

評(píng)論

啾咪仔仔

不管怎么說，我還是很期待虛擬人的發(fā)展的，希望未來可以看到虛擬人的好的發(fā)展

最近來自浙江回復(fù)
阿月

數(shù)字人是基于計(jì)算機(jī)平臺(tái)的交互載體，將呈現(xiàn)段落式發(fā)展

最近來自中國(guó) 回復(fù)
之桃

曾經(jīng)我也以為虛擬人不會(huì)翻車，但后來才發(fā)現(xiàn)，也許未來AI控制的虛擬人翻車概率低點(diǎn)，但現(xiàn)在采用中之人的虛擬人翻車概率一點(diǎn)也不低，還是需要公司和團(tuán)隊(duì)好好運(yùn)營(yíng)維護(hù)才行。

最近來自廣東回復(fù)