a16z認為的下一個千億賽道來了!你知道嗎?
本文將深度剖析這一千億級賽道的技術躍遷路徑——從嘴型同步到全身動作捕捉,從情緒驅動到實時交互;揭示其商業(yè)落地場景如何覆蓋C端UGC創(chuàng)作、B端廣告自動化、企業(yè)級培訓分身;并展望未來五年內可能突破的五大技術瓶頸。
昨天的文章里講了兩個我做AI出海顧問期間遇到的兩個“比較坑”的產(chǎn)品方向兩個“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎,今天再來講講我遇到比較好的一個方向,就是AI視頻這塊。
我合作過5家AI視頻類的公司,有專門做視頻生成的,也有做視頻剪輯的。這兩類算是不同賽道,但隨著技術進步,從產(chǎn)品層面在逐漸融合。
視頻生成賽道比較典型的代表是Pika、Runway等產(chǎn)品,視頻剪輯賽吧典型代表是HeyGen、Opus Clip等產(chǎn)品。生成賽道一開始吸引人的點還是在于新鮮感,而視頻剪輯賽道,從AI虛擬人到長視頻剪短視頻、再到口型同步,還有直接生成AI UGC以及商品融合等等。
這個賽道很典型的特征就是市場足夠大,用戶需求很大,而且有不同人群的需求,比如純粹的創(chuàng)作者有創(chuàng)造需求,做增長的有營銷視頻需求,做銷售的有產(chǎn)品介紹視頻需求,甚至在創(chuàng)作者領域還可以再細分,比如專門面向播客人群,面向二次元人群等等。競爭也激烈,絕對是一個紅海賽道,但所幸市場足夠大,我合作過的視頻類產(chǎn)品,增長和營收都很不錯,因為確確實實帶來了新的生產(chǎn)力革命,整個用戶使用是完全閉環(huán)的。
當AI不再只是“生成內容”,而是“成為內容”的一部分,一場內容生產(chǎn)的革命就此開啟。
過去幾年,AI已經(jīng)能生成逼真的圖片、視頻和聲音,悄然通過視覺和聽覺的圖靈測試。但2025年最令人激動的突破,毫無疑問是——AI虛擬人(AI Avatar)。
這些不再“恐怖”的AI角色,正以驚人的速度沖出“恐怖谷”,開始全面滲透內容創(chuàng)作、廣告營銷、企業(yè)培訓等多個領域。這不僅是AI的一次技術躍遷,更是內容產(chǎn)業(yè)的一次范式轉變。
今天正好看到a16z發(fā)了最新的一篇關于AI Avatar虛擬人這方面的報告,以下是精華信息總結,給大家分享。
一、AI虛擬人研究的演化軌跡:從嘴型匹配到全身互動
真正的挑戰(zhàn)不是嘴巴動了,而是表情、頭部和身體的每一處細節(jié)是否同步、自然。
生成一個“會說話的臉”并不簡單。研究人員面臨的最大難題是:語音(phoneme)到嘴型(viseme)的精準匹配,再加上面部肌肉、眼神、甚至上半身動作的自然聯(lián)動。
AI虛擬人技術近幾年突飛猛進,從最早的CNN、GAN,到NeRF、3DMM、Transformer、Diffusion模型,如今已發(fā)展到基于Transformer的擴散模型(DiT)。最新代表作如ByteDance的 OmniHuman 和Hedra的 Character-3,已可實現(xiàn)逼真的半身/全身動作、表情同步、甚至環(huán)境互動。
二、AI虛擬人的“真實工作”:不是玩具,而是生產(chǎn)力工具
AI虛擬人不再只是好玩的技術展示,而是創(chuàng)造實際商業(yè)價值的工具,從消費者內容創(chuàng)作到企業(yè)培訓,都能看到它的身影。
1. 普通用戶:人人都能創(chuàng)造角色
一個圖 + 一段音頻 = 你的AI主播上線了!
從動漫角色、游戲人物、虛擬偶像,到播客主持人、AI主播,只需一張圖片+一段語音,用戶就能一鍵生成“會說話”的視頻。
代表產(chǎn)品如 Hedra,甚至能支持情緒指令控制角色表情;Runway、Viggle 還支持真人視頻驅動角色動作。YouTube 上《The Monoverse》系列就是一個全AI制作的代表作。
更令人期待的是,“實時對話”正逐漸成為現(xiàn)實。想象一下,未來的語言學習不再是冷冰冰的語音助手,而是一個有表情、有動作、有性格的“AI語言老師”。
2. 中小企業(yè):一鍵生成廣告
AI虛擬人最先在廣告領域爆發(fā)。相比傳統(tǒng)廣告拍攝,AI視頻創(chuàng)作無需演員、無需攝影棚、無需剪輯師,幾分鐘搞定一條高質量短視頻。
工具如 Creatify、Arcads 支持輸入商品鏈接,自動生成腳本、畫面、BGM、AI演員,大幅降低廣告制作門檻。現(xiàn)在,電商、游戲、App廣告中,AI人已經(jīng)隨處可見。
B2B企業(yè)也在跟進:Yuzu Labs、Vidyard 提供帶AI代言人的視頻外聯(lián)郵件、產(chǎn)品介紹、活動宣傳等內容。
3. 大型企業(yè):培訓與內容本地化神器
企業(yè)層面,AI虛擬人應用主要集中在:
- 培訓視頻自動化:如 Synthesia 可生成入職培訓、產(chǎn)品教程等內容,節(jié)省人力;
- 多語言內容本地化:配合 ElevenLabs 的AI語音翻譯,一條視頻可快速轉成多國語言;
- CEO分身:用AI復刻CEO形象,生成個性化溝通視頻,擴大“高管影響力”。
三、AI虛擬人的技術組成:不僅是臉,還要有“靈魂”
要打造一個真正自然的AI虛擬人,需要攻克以下五大模塊:
此外,若要實現(xiàn)實時交互,還需:
- 大腦(記憶與對話):連接知識庫、具備個性與記憶;
- 低延遲流媒體傳輸:如 LiveKit、Agora 正在攻克該難題。
四、哪些痛點仍待突破??? 五個令人期待的未來發(fā)展方向
我親測后發(fā)現(xiàn),這個領域還有幾個激動人心的發(fā)展方向:
1. 角色變形和場景切換
不再局限于固定造型!想象一下,同一個角色可以:
- 在視頻中換裝、更換發(fā)型
- 從坐姿切換到站姿
- 從室內場景切換到室外
- 擁有多種情緒狀態(tài)和姿勢供選擇
HeyGen已經(jīng)開始提供這項功能,他們的AI主持人Raul有20種不同的外觀和場景!
2. 更自然的表情和情感
AI能理解內容情感,做出合適反應:
- 說到可怕的事情時表現(xiàn)出恐懼
- 聽到笑話時自然微笑
- 講述傷心故事時流露悲傷
- 根據(jù)語調自動調整表情強度
Captions新推出的Mirage模型在這方面取得了顯著進步,表情范圍和自然度大幅提升。
3. 與現(xiàn)實世界互動
AI角色能”觸摸”周圍物品:
- 在廣告中拿起展示的產(chǎn)品
- 與屏幕上的圖表互動
- 指向背景中的特定元素
- 操作虛擬設備
Topview在這方面已經(jīng)取得了突破,他們開發(fā)了一種流程,允許AI角色在廣告中展示實際產(chǎn)品。
4. 全身動作與手勢表達
超越簡單的上半身動作:
- 自然的手勢配合語音內容
- 走動、坐下等全身動作
- 舞蹈和復雜動作序列
- 根據(jù)性格特點定制動作風格
目前Argil允許用戶為視頻不同部分選擇不同類型的肢體語言,但未來的技術將更加自然流暢。
5. 實時應用的爆發(fā)
延遲和可靠性接近人類水平:
- 與AI醫(yī)生進行視頻咨詢
- 與AI導購一起瀏覽產(chǎn)品
- 與你最喜歡的電視劇角色視頻聊天
- AI老師提供實時反饋和輔導
Tavus的最新模型已經(jīng)能夠實現(xiàn)較低延遲的實時對話,我實際測試了與AI數(shù)字人的視頻對話,體驗接近真人交流。
五、未來趨勢預測:AI虛擬人將成為千億級賽道
有人用它講故事,有人用它賣貨,有人用它打造自己的“數(shù)字分身”。
隨著底層模型質量的顯著提升,AI虛擬人正從“看上去有點怪”走向“你甚至分不清真假”。
我們預計,內容創(chuàng)作型AI的下一個風口就是AI虛擬人。
- 做營銷的公司需要能自動寫腳本、選演員、生成廣告的視頻平臺;
- 做教育、講故事、創(chuàng)作IP的人,需要能管理角色、場景、剪輯的視頻創(chuàng)作工具;
- 企業(yè)則需要可大規(guī)模部署的培訓、溝通、客戶服務解決方案。
這不再是“AI代替人類”,而是“每個人都能擁有自己的數(shù)字化表達分身”。多家公司已經(jīng)在這個領域嶄露頭角,可能會誕生多個十億美元級別的企業(yè)。關鍵在于找到特定的用例和目標客戶,并圍繞它們構建完整的工作流程。
結語:虛擬人類時代已經(jīng)開始
AI虛擬人不僅僅是一個“技術突破”,它代表著一個全新內容表達方式的誕生。
當你可以讓任何形象說話、表達、互動,我們正在進入一個人人都是導演、每張圖都能開口說話的時代。?
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!