不做Sora背后:百度的多模態(tài)路線是什么?

1 評(píng)論 582 瀏覽 0 收藏 13 分鐘

在人工智能的浪潮中,百度以其獨(dú)特的多模態(tài)技術(shù)路線,引領(lǐng)行業(yè)探索AI的深度應(yīng)用。本文深入解析了百度在AI領(lǐng)域的戰(zhàn)略選擇,特別是在面對“百模大戰(zhàn)”和視頻生成技術(shù)風(fēng)潮時(shí),百度如何堅(jiān)持其技術(shù)理念,通過iRAG技術(shù)解決AI領(lǐng)域的“幻覺”問題,并在多模態(tài)技術(shù)的發(fā)展上走出自己的道路。

當(dāng)ChatGPT掀起國內(nèi)“百模大戰(zhàn)”,百度率先交卷文心一言。

Sora再掀視頻生成風(fēng)潮,卻傳出李彥宏內(nèi)部講話“Sora無論多么火,百度都不去做”。

一時(shí)間,困惑、不解、爭議,紛至沓來。

面對這些聲音,在剛剛結(jié)束的百度世界大會(huì)會(huì)后采訪中,李彥宏公開回應(yīng)。

他不僅重申了不做Sora的決定,并且說明了百度是如何運(yùn)用和發(fā)展多模態(tài)的。

在大會(huì)發(fā)布中,李彥宏發(fā)布了百度從年初開始重點(diǎn)攻克的iRAG技術(shù),這項(xiàng)技術(shù)旨在解決AI領(lǐng)域最棘手的”幻覺”問題。有趣的是,這個(gè)開始正好是在Sora風(fēng)正熱之時(shí)。

百度的選擇背后原因,到底是什么?

△百度2024世界大會(huì)現(xiàn)場

一、加速解決幻覺問題

先從iRAG技術(shù)看。它所解決的是圖片生成的幻覺問題。

在年初,不做Sora,轉(zhuǎn)頭將資源放在幻覺解決上。為什么?

結(jié)合這屆百度世界大會(huì)主題“應(yīng)用來了”來理解:

幻覺已經(jīng)成為制約大模型應(yīng)用大規(guī)模落地的一大絆腳石。

現(xiàn)代社會(huì)對計(jì)算器已有絕對的信任,只要保證輸入是對的,就可以百分百放心地把計(jì)算結(jié)果用到下一步工作流程中。

但對于已知可能存在幻覺的大模型來說,還敢給予同等的信任嗎?

△新版文小言APP繪圖

有幻覺,即意味著模型行為不完全可控,不能完全放心的自動(dòng)化工作流程,依然需要人工介入。

AI應(yīng)用正面臨這樣的困境。

事實(shí)上,ChatGPT問世之后,大模型的幾個(gè)主要改進(jìn)方向都是通過不同方式來解決大模型幻覺問題。

長上下文窗口,讓模型獲取更完整的輸入,減少因信息不全產(chǎn)生的錯(cuò)誤推理。

RAG(檢索增強(qiáng)生成),檢索外部知識(shí)庫補(bǔ)充信息,彌補(bǔ)模型參數(shù)存儲(chǔ)知識(shí)的不足。

聯(lián)網(wǎng)搜索,獲取實(shí)時(shí)、動(dòng)態(tài)的在線信息,擴(kuò)展模型的知識(shí)邊界。

慢思考,通過分步推理減少直覺性錯(cuò)誤,提高推理過程的可解釋性。

甚至從某種意義上說,多模態(tài)技術(shù)也是讓模型多一種信息輸入途徑,不用在“看不見”視覺信息的情況下為了完成任務(wù)憑空編造。

……

所以再次總結(jié)一下,為什么解決幻覺問題是目前AI行業(yè)的當(dāng)務(wù)之急?

從技術(shù)層面,不解決幻覺問題就難以預(yù)測和控制模型的行為邊界。

從應(yīng)用的角度來看,幻覺問題阻礙了用戶對AI產(chǎn)品的信任。

從產(chǎn)業(yè)角度,解決了幻覺問題才能擴(kuò)大AI可應(yīng)用的場景范圍,提高AI系統(tǒng)的商業(yè)價(jià)值。

再將目光轉(zhuǎn)向百度,解決AI幻覺問題,恰恰也是百度的“主戰(zhàn)場”。

iRAG,全稱Image-based Retrieval-Augmented Generation,是一種全新的檢索增強(qiáng)文生圖范式,結(jié)合了百度多年的搜索積累,幫助大幅提升圖片的生成可控性和準(zhǔn)確性。

其核心是將百度搜索的億級(jí)圖片資源與文心大模型的生成能力相結(jié)合,通過聯(lián)合優(yōu)化,讓生成圖片更加真實(shí)可信。

△百度2024世界大會(huì)現(xiàn)場

具體而言,iRAG先利用檢索模塊在海量圖庫中找出與文本描述最相關(guān)的若干圖片,然后提取其視覺特征,與文本特征一并輸入到生成模塊。生成模塊在此基礎(chǔ)上,對圖像進(jìn)行理解、重組、創(chuàng)新,最終輸出高質(zhì)量、符合需求的全新圖片。

△文心大模型生成的大眾攬巡汽車飛躍長城

可以說,iRAG巧妙地將認(rèn)知智能(檢索)與生成智能(創(chuàng)作)結(jié)合在一起,取長補(bǔ)短,相得益彰。

一方面,海量圖像的參考讓生成更”接地氣”,大幅減少了幻覺、違禁內(nèi)容等問題。

另一方面,強(qiáng)大的生成能力讓輸出圖片更多樣、更具創(chuàng)意,遠(yuǎn)非單純的拼貼、修改那么簡單。

更重要的是,iRAG在諸多行業(yè)領(lǐng)域都具有廣闊應(yīng)用前景,尤其能顯著降低AI生圖的創(chuàng)作成本。比如在影視制作、動(dòng)漫設(shè)計(jì)中,iRAG可實(shí)現(xiàn)從文本腳本直接生成高質(zhì)量的分鏡、概念圖,大幅減少中間環(huán)節(jié)的人工干預(yù)。

二、多模態(tài),不止Sora一條路

明確了幻覺問題是AI行業(yè)的優(yōu)先級(jí),百度還需要回答另一種質(zhì)疑:多模態(tài)已經(jīng)是公認(rèn)邁向AGI的重要一步。

多模態(tài)有助于增強(qiáng)AI系統(tǒng)的感知和理解能力。通過處理視覺、語音、文本等不同模態(tài)的信息,AI可以更全面地感知環(huán)境,增強(qiáng)其認(rèn)知和交互能力,與人類通過多種感官認(rèn)知世界保持一致。

但這里要明確的是,Sora路線并不能代表多模態(tài)技術(shù)的全部。

首先,投入做Sora代表的通用視頻生成模型投入的成本非常高昂。市場研究機(jī)構(gòu)Factorial Funds報(bào)告估算,Sora模型至少需要在4200~10500塊英偉達(dá)H100 GPU上訓(xùn)練1個(gè)月。而如果Sora得到大范圍應(yīng)用,為了滿足需求,需要約72萬張Nvidia H100 GPU,如果按照每片英偉達(dá)H100 AI加速卡3萬美元成本計(jì)算,72萬片需要216億美元。

而目前通用視頻生成模型在技術(shù)成熟度上距離iPhone時(shí)刻也還有較遠(yuǎn)的距離。此前與藝術(shù)家合作短片《Air Head》后來就被指出實(shí)際有大量人工參與,估算只有約1/300的AI素材用到了最終成片里。

△圖源fxguide.com

目前市場視頻生成應(yīng)用從短劇內(nèi)容生產(chǎn)到影視特效制作,很多努力都在摸索視頻生成技術(shù)的想象空間,但尚未形成成熟的商業(yè)化方案和穩(wěn)定的營收模式。

其實(shí),對于做多模態(tài)來說,也存在Sora之外的多種路徑。???

Meta首席科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun就一直堅(jiān)持“世界模型”路線。他認(rèn)為生成視頻的過程與基于世界模型的因果預(yù)測完全不同,通過生成像素來對世界進(jìn)行建模是一種浪費(fèi),注定會(huì)失敗。

斯坦福教授李飛飛則看重具身智能,她認(rèn)為AI僅僅看是不夠的,“看,是為了行動(dòng)和學(xué)習(xí)”。比如通過大語言模型,讓一個(gè)機(jī)器人手臂執(zhí)行任務(wù),打開一扇門、做一個(gè)三明治以及對人類的口頭指令做出反應(yīng)等。

百度對多模態(tài)技術(shù)的理解,最近也在數(shù)字人場景得到集中體現(xiàn)。

百度從2019年起就開始布局?jǐn)?shù)字人領(lǐng)域,涉及語音克隆、唇形同步、表情動(dòng)作捕捉等一系列關(guān)鍵技術(shù)。到如今百度“曦靈”數(shù)字人、“慧播星”數(shù)字人已廣泛應(yīng)用于新聞播報(bào)、直播電商等場景。

△百度慧播星電商數(shù)字人

正如李彥宏強(qiáng)調(diào)的,百度不做Sora,并不意味著在多模態(tài)賽道上缺席了。

數(shù)字人語音與口型、動(dòng)作的同步問題,或許最終可以靠通用場景下的視頻生成實(shí)現(xiàn),但需要很長時(shí)間,成本很高。

但既然可以用更簡單、成本更低的方法做到,為什么不先把業(yè)務(wù)跑起來呢?

首先,通用方案追求”大而全”,試圖用單一模型覆蓋所有場景,但這在技術(shù)上尚不成熟,往往帶來效果的參差不齊;而數(shù)字人聚焦特定垂直領(lǐng)域,可以更精準(zhǔn)地優(yōu)化模型,追求極致的人機(jī)交互體驗(yàn)。

其次,視頻生成好就是固定的素材了,缺乏實(shí)時(shí)交互能力;而AI驅(qū)動(dòng)的數(shù)字人卻可以實(shí)現(xiàn)動(dòng)態(tài)多輪對話,甚至還可以根據(jù)用戶反饋實(shí)時(shí)調(diào)整狀態(tài),更加契合真實(shí)應(yīng)用的需求。

最后,視頻生成對算力和數(shù)據(jù)的要求極高,當(dāng)前能夠真正駕馭的企業(yè)鳳毛麟角,商業(yè)化進(jìn)程困難重重;相比之下,數(shù)字人技術(shù)門檻相對較低,且應(yīng)用場景清晰,更容易形成可復(fù)制的商業(yè)模式,開啟數(shù)據(jù)飛輪。

三、AI大規(guī)模落地需要什么條件?

不論是投入解決圖片幻覺問題,還是從業(yè)務(wù)需求出發(fā)發(fā)展多模態(tài)的路線,百度的目標(biāo)似乎都圍繞著李彥宏所說的:讓技術(shù)被更多人用起來。

李彥宏這段時(shí)間不斷強(qiáng)調(diào)的一個(gè)觀點(diǎn)是“模型本身不產(chǎn)生直接價(jià)值”,只有在模型之上開發(fā)各種各樣應(yīng)用,在各種場景找到所謂的PMF,才能真正產(chǎn)生價(jià)值。

百度需要做的,是為個(gè)人和企業(yè)提供開發(fā)應(yīng)用的基建,幫助更多人、更多企業(yè)打造出數(shù)百萬“超級(jí)有用”的應(yīng)用。

長遠(yuǎn)來看,幻覺問題的解決為行業(yè)應(yīng)用消除了障礙,使得AI技術(shù)能夠在更廣泛的領(lǐng)域得到應(yīng)用和推廣。

用業(yè)務(wù)需要的多模態(tài)技術(shù)支持業(yè)務(wù)先跑起來,能讓更多的AI應(yīng)用場景為大家所用。

同時(shí),大量的行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù),又能為AGI的發(fā)展提供豐富的養(yǎng)分,形成良性循環(huán),推動(dòng)數(shù)據(jù)飛輪的高速運(yùn)轉(zhuǎn),從而加快我們邁向AGI的步伐。

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 百度這波操作真6,不跟風(fēng)Sora,多模態(tài)才是未來??!????

    來自遼寧 回復(fù)