a16z認為的下一個千億賽道來了!你知道嗎?

0 評論 2272 瀏覽 4 收藏 12 分鐘

本文將深度剖析這一千億級賽道的技術躍遷路徑——從嘴型同步到全身動作捕捉,從情緒驅動到實時交互;揭示其商業(yè)落地場景如何覆蓋C端UGC創(chuàng)作、B端廣告自動化、企業(yè)級培訓分身;并展望未來五年內可能突破的五大技術瓶頸。

昨天的文章里講了兩個我做AI出海顧問期間遇到的兩個“比較坑”的產(chǎn)品方向兩個“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎,今天再來講講我遇到比較好的一個方向,就是AI視頻這塊。

我合作過5家AI視頻類的公司,有專門做視頻生成的,也有做視頻剪輯的。這兩類算是不同賽道,但隨著技術進步,從產(chǎn)品層面在逐漸融合。

視頻生成賽道比較典型的代表是Pika、Runway等產(chǎn)品,視頻剪輯賽吧典型代表是HeyGen、Opus Clip等產(chǎn)品。生成賽道一開始吸引人的點還是在于新鮮感,而視頻剪輯賽道,從AI虛擬人到長視頻剪短視頻、再到口型同步,還有直接生成AI UGC以及商品融合等等。

這個賽道很典型的特征就是市場足夠大,用戶需求很大,而且有不同人群的需求,比如純粹的創(chuàng)作者有創(chuàng)造需求,做增長的有營銷視頻需求,做銷售的有產(chǎn)品介紹視頻需求,甚至在創(chuàng)作者領域還可以再細分,比如專門面向播客人群,面向二次元人群等等。競爭也激烈,絕對是一個紅海賽道,但所幸市場足夠大,我合作過的視頻類產(chǎn)品,增長和營收都很不錯,因為確確實實帶來了新的生產(chǎn)力革命,整個用戶使用是完全閉環(huán)的。

當AI不再只是“生成內容”,而是“成為內容”的一部分,一場內容生產(chǎn)的革命就此開啟。

過去幾年,AI已經(jīng)能生成逼真的圖片、視頻和聲音,悄然通過視覺和聽覺的圖靈測試。但2025年最令人激動的突破,毫無疑問是——AI虛擬人(AI Avatar)。

這些不再“恐怖”的AI角色,正以驚人的速度沖出“恐怖谷”,開始全面滲透內容創(chuàng)作、廣告營銷、企業(yè)培訓等多個領域。這不僅是AI的一次技術躍遷,更是內容產(chǎn)業(yè)的一次范式轉變。

今天正好看到a16z發(fā)了最新的一篇關于AI Avatar虛擬人這方面的報告,以下是精華信息總結,給大家分享。

一、AI虛擬人研究的演化軌跡:從嘴型匹配到全身互動

真正的挑戰(zhàn)不是嘴巴動了,而是表情、頭部和身體的每一處細節(jié)是否同步、自然。

生成一個“會說話的臉”并不簡單。研究人員面臨的最大難題是:語音(phoneme)到嘴型(viseme)的精準匹配,再加上面部肌肉、眼神、甚至上半身動作的自然聯(lián)動。

AI虛擬人技術近幾年突飛猛進,從最早的CNN、GAN,到NeRF、3DMM、Transformer、Diffusion模型,如今已發(fā)展到基于Transformer的擴散模型(DiT)。最新代表作如ByteDance的 OmniHuman 和Hedra的 Character-3,已可實現(xiàn)逼真的半身/全身動作、表情同步、甚至環(huán)境互動。

二、AI虛擬人的“真實工作”:不是玩具,而是生產(chǎn)力工具

AI虛擬人不再只是好玩的技術展示,而是創(chuàng)造實際商業(yè)價值的工具,從消費者內容創(chuàng)作到企業(yè)培訓,都能看到它的身影。

1. 普通用戶:人人都能創(chuàng)造角色

一個圖 + 一段音頻 = 你的AI主播上線了!

從動漫角色、游戲人物、虛擬偶像,到播客主持人、AI主播,只需一張圖片+一段語音,用戶就能一鍵生成“會說話”的視頻。

代表產(chǎn)品如 Hedra,甚至能支持情緒指令控制角色表情;Runway、Viggle 還支持真人視頻驅動角色動作。YouTube 上《The Monoverse》系列就是一個全AI制作的代表作。

更令人期待的是,“實時對話”正逐漸成為現(xiàn)實。想象一下,未來的語言學習不再是冷冰冰的語音助手,而是一個有表情、有動作、有性格的“AI語言老師”。

2. 中小企業(yè):一鍵生成廣告

AI虛擬人最先在廣告領域爆發(fā)。相比傳統(tǒng)廣告拍攝,AI視頻創(chuàng)作無需演員、無需攝影棚、無需剪輯師,幾分鐘搞定一條高質量短視頻。

工具如 Creatify、Arcads 支持輸入商品鏈接,自動生成腳本、畫面、BGM、AI演員,大幅降低廣告制作門檻。現(xiàn)在,電商、游戲、App廣告中,AI人已經(jīng)隨處可見。

B2B企業(yè)也在跟進:Yuzu Labs、Vidyard 提供帶AI代言人的視頻外聯(lián)郵件、產(chǎn)品介紹、活動宣傳等內容。

3. 大型企業(yè):培訓與內容本地化神器

企業(yè)層面,AI虛擬人應用主要集中在:

  • 培訓視頻自動化:如 Synthesia 可生成入職培訓、產(chǎn)品教程等內容,節(jié)省人力;
  • 多語言內容本地化:配合 ElevenLabs 的AI語音翻譯,一條視頻可快速轉成多國語言;
  • CEO分身:用AI復刻CEO形象,生成個性化溝通視頻,擴大“高管影響力”。

三、AI虛擬人的技術組成:不僅是臉,還要有“靈魂”

要打造一個真正自然的AI虛擬人,需要攻克以下五大模塊:

此外,若要實現(xiàn)實時交互,還需:

  • 大腦(記憶與對話):連接知識庫、具備個性與記憶;
  • 低延遲流媒體傳輸:如 LiveKit、Agora 正在攻克該難題。

四、哪些痛點仍待突破??? 五個令人期待的未來發(fā)展方向

我親測后發(fā)現(xiàn),這個領域還有幾個激動人心的發(fā)展方向:

1. 角色變形和場景切換

不再局限于固定造型!想象一下,同一個角色可以:

  • 在視頻中換裝、更換發(fā)型
  • 從坐姿切換到站姿
  • 從室內場景切換到室外
  • 擁有多種情緒狀態(tài)和姿勢供選擇

HeyGen已經(jīng)開始提供這項功能,他們的AI主持人Raul有20種不同的外觀和場景!

2. 更自然的表情和情感

AI能理解內容情感,做出合適反應:

  • 說到可怕的事情時表現(xiàn)出恐懼
  • 聽到笑話時自然微笑
  • 講述傷心故事時流露悲傷
  • 根據(jù)語調自動調整表情強度

Captions新推出的Mirage模型在這方面取得了顯著進步,表情范圍和自然度大幅提升。

3. 與現(xiàn)實世界互動

AI角色能”觸摸”周圍物品:

  • 在廣告中拿起展示的產(chǎn)品
  • 與屏幕上的圖表互動
  • 指向背景中的特定元素
  • 操作虛擬設備

Topview在這方面已經(jīng)取得了突破,他們開發(fā)了一種流程,允許AI角色在廣告中展示實際產(chǎn)品。

4. 全身動作與手勢表達

超越簡單的上半身動作:

  • 自然的手勢配合語音內容
  • 走動、坐下等全身動作
  • 舞蹈和復雜動作序列
  • 根據(jù)性格特點定制動作風格

目前Argil允許用戶為視頻不同部分選擇不同類型的肢體語言,但未來的技術將更加自然流暢。

5. 實時應用的爆發(fā)

延遲和可靠性接近人類水平:

  • 與AI醫(yī)生進行視頻咨詢
  • 與AI導購一起瀏覽產(chǎn)品
  • 與你最喜歡的電視劇角色視頻聊天
  • AI老師提供實時反饋和輔導

Tavus的最新模型已經(jīng)能夠實現(xiàn)較低延遲的實時對話,我實際測試了與AI數(shù)字人的視頻對話,體驗接近真人交流。

五、未來趨勢預測:AI虛擬人將成為千億級賽道

有人用它講故事,有人用它賣貨,有人用它打造自己的“數(shù)字分身”。

隨著底層模型質量的顯著提升,AI虛擬人正從“看上去有點怪”走向“你甚至分不清真假”。

我們預計,內容創(chuàng)作型AI的下一個風口就是AI虛擬人。

  • 做營銷的公司需要能自動寫腳本、選演員、生成廣告的視頻平臺;
  • 做教育、講故事、創(chuàng)作IP的人,需要能管理角色、場景、剪輯的視頻創(chuàng)作工具;
  • 企業(yè)則需要可大規(guī)模部署的培訓、溝通、客戶服務解決方案。

這不再是“AI代替人類”,而是“每個人都能擁有自己的數(shù)字化表達分身”。多家公司已經(jīng)在這個領域嶄露頭角,可能會誕生多個十億美元級別的企業(yè)。關鍵在于找到特定的用例和目標客戶,并圍繞它們構建完整的工作流程。

結語:虛擬人類時代已經(jīng)開始

AI虛擬人不僅僅是一個“技術突破”,它代表著一個全新內容表達方式的誕生。

當你可以讓任何形象說話、表達、互動,我們正在進入一個人人都是導演、每張圖都能開口說話的時代。?

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!