李彥宏宣稱無幻覺,文心一言親測卻 「打臉」?

1 評(píng)論 558 瀏覽 0 收藏 11 分鐘

百度創(chuàng)始人李彥宏在百度世界2024大會(huì)上宣稱,大模型技術(shù)已經(jīng)“基本消除了幻覺”,并介紹了其最新研發(fā)的檢索增強(qiáng)的文生圖技術(shù)(iRAG)。然而,新識(shí)研究所對(duì)文心一言的實(shí)際測試結(jié)果卻顯示,李彥宏所宣稱的“無幻覺”效果似乎并不穩(wěn)定,甚至在某些情況下與實(shí)際情況相去甚遠(yuǎn)。

11月12日,在百度世界2024大會(huì)上,李彥宏在主題為《應(yīng)用來了》的演講中,公開對(duì)外表達(dá)了“過去24個(gè)月,AI行業(yè)的最大變化是什么?是大模型基本消除了幻覺”的看法,并且發(fā)布了檢索增強(qiáng)的文生圖技術(shù)(iRAG),稱其可“用于解決大模型在圖片生成上的幻覺問題,極大提升實(shí)用性”。

然而在體驗(yàn)中,新識(shí)研究所卻發(fā)現(xiàn)文心一言在文字與文生圖上消除/解決了幻覺,可能只是李彥宏的“幻覺”。

一、李彥宏說大模型消除幻覺,文心一言復(fù)現(xiàn)卻漏洞百出?

作為在發(fā)布會(huì)上展示的技術(shù),除了當(dāng)場演示不翻車之外,最起碼要做到讓用戶可以復(fù)現(xiàn)。但李彥宏這次的現(xiàn)場演示,卻實(shí)在讓人懷疑他用的是不是提前預(yù)設(shè)好的東西。

在大會(huì)當(dāng)場,李彥宏隆重推出了檢索增強(qiáng)的文生圖技術(shù)——iRAG。據(jù)介紹,該技術(shù)將百度搜索的億級(jí)圖片資源與基礎(chǔ)模型能力相結(jié)合,能生成極為逼真的圖片。李彥宏強(qiáng)調(diào),iRAG技術(shù)效果遠(yuǎn)超原生文生圖系統(tǒng),成功消除了機(jī)器味,并顯著提升了AI生成圖片的實(shí)用性。

那么是怎么個(gè)消除了機(jī)器味、證明生成的圖片是真實(shí)的呢?李彥宏拿出了天壇作為案例。

首先,李彥宏使用某開源模型生成了一張北京天壇的圖片,然后告訴大家,這張?zhí)靿瘓D片是錯(cuò)誤的,因?yàn)樘靿挥腥龑佣撻_源模型生成的圖片中天壇有四層,并告訴大家,這就是圖像等多模態(tài)模型幻覺的最真實(shí)情況。

而在指出這個(gè)開源模型的錯(cuò)誤后,李彥宏也展示了文心一言利用iRAG技術(shù)生成的愛因斯坦在天壇的圖片,以展現(xiàn)百度iRAG技術(shù)消除多模態(tài)模型幻覺的實(shí)力。

圖源:小熊財(cái)經(jīng)

這一切看似很流暢,使用了iRAG技術(shù)生成的圖片也的確不再“臆想”,但在我們復(fù)現(xiàn)該圖片的時(shí)候,卻出現(xiàn)了問題。

在同樣的要求之下,文心大模型生成的“天壇”卻不像李彥宏當(dāng)場展示的一般,而是給出了有四層的“天壇”圖片,這不剛好也算是犯了李彥宏指出同行們的錯(cuò)誤嗎?

圖源:文心一言生成

在層數(shù)之外,這張生成的“天壇”照片在下面欄桿的數(shù)量上也與真實(shí)的天壇對(duì)不上號(hào),真實(shí)的天壇共有三層欄桿,而生成的圖片則有四層甚至五層欄桿出現(xiàn)。

圖源:文心一言生成

或許有人覺得我這樣的要求有點(diǎn)“吹毛求疵”,但在五次同樣的要求之下,文心一言有三次給出了“打臉”李彥宏的輸出結(jié)果,實(shí)在令人有些汗顏。

而在另外一張現(xiàn)場展示的“大眾攬巡汽車飛躍長城”圖片上,文心一言也給出了同展示相去甚遠(yuǎn)的答案。

圖源:文心一言生成

左上圖為真實(shí)的大眾攬巡,左下為大會(huì)展示的大眾攬巡,而右圖則為再次生成的大眾攬巡,李彥宏展示的圖片與真實(shí)的攬巡的確相差不遠(yuǎn),但為何再次生成的圖片,連大眾的logo都被“幻覺”掉了呢?

在圖片之外,李彥宏表示文字層面的RAG已經(jīng)做得很好,基本讓大模型消除了幻覺,但作為日常深度使用各家大模型的用戶來說,起碼在豆包、Kimi、文心一言這些大眾使用頻率最高的大模型應(yīng)用上,是遠(yuǎn)遠(yuǎn)達(dá)不到李彥宏所說的程度的。

(事實(shí)上多倫多不是加拿大的首都)

而從技術(shù)上來說,RAG(檢索增強(qiáng)生成)本質(zhì)上是一種基于信息檢索方法緩解LLM幻覺的技術(shù),就是無法徹底杜絕模型的幻覺問題,這似乎就是Transformer架構(gòu)本身的問題,例如在處理代碼編寫和數(shù)學(xué)等需要推理的任務(wù)時(shí),RAG的表現(xiàn)就不那么理想了,而如此武斷地給出RAG基本讓大模型消除了幻覺的論斷,真的沒有問題嗎?

二、李彥宏,才是被“忽悠瘸”的那個(gè)?

如果說像這樣的事件是偶然的話那還可以理解,但從AI時(shí)代開始李彥宏與百度的多次發(fā)聲與動(dòng)作來看,也不能排除李彥宏被下面做產(chǎn)品、做業(yè)務(wù)甚至所宣傳的人“忽悠”出幻覺的可能。

作為最先發(fā)布大模型的企業(yè),百度的文心一言在去年年初可謂是風(fēng)光無兩,就差把中國大模型之光的title安在腦袋上了。但一年半之后的現(xiàn)在,占盡先發(fā)優(yōu)勢(shì)的文小言的MAU只有豆包的四分之一,同文心一言年齡相仿的月之暗面的產(chǎn)品Kimi也快要趕上。

數(shù)據(jù)來源:公眾號(hào)@AI產(chǎn)品榜

而要追究個(gè)中原因,雖然的確脫不開近幾個(gè)月豆包有抖音“獨(dú)家宣傳權(quán)”、Kimi大肆燒錢的因素,但歸根結(jié)底,還是由于百度在大模型上的進(jìn)展并沒有保持住領(lǐng)先優(yōu)勢(shì)。

在今年4月Create 2024百度AI開發(fā)者大會(huì)上,百度帶來了包括智能體開發(fā)工具AgentBuilder、AI原生應(yīng)用開發(fā)工具AppBuilder、各種尺寸的模型定制工具M(jìn)odelBuilder在內(nèi)的三個(gè)AI開發(fā)工具,其中的智能體開發(fā)工具AgentBuilder似乎有很大的超越性,也被百度寄予了厚望。

但是,在創(chuàng)建智能體的能力上,百度的超越性并沒有宣稱的那么大。

以豆包為例,發(fā)現(xiàn)智能體、創(chuàng)建AI智能體也早已對(duì)C端用戶放開,并在真實(shí)的使用中并不輸給百度AgentBuilder開發(fā)的智能體。

圖源:豆包

李彥宏對(duì)于大模型技術(shù)和趨勢(shì)的一些發(fā)言和判斷,也經(jīng)常會(huì)讓人覺得與現(xiàn)實(shí)發(fā)展并不相符。

同樣在今年4月Create 2024百度AI開發(fā)者大會(huì)上,李彥宏曾表示:“開源模型會(huì)越來越落后”。他給出的原因是,大家以前用開源覺得便宜,其實(shí)在大模型場景下,開源是最貴的,所以開源模型會(huì)越來越落后。

開源模型成本高就一定會(huì)落后?顯然并不是直接的因果關(guān)系。更何況在技術(shù)領(lǐng)域,幾乎每一個(gè)開發(fā)者都信奉開源的力量,認(rèn)為開源驅(qū)動(dòng)了絕大多數(shù)技術(shù)創(chuàng)新,那為什么到了李彥宏這里就出現(xiàn)了另一種答案呢?

而再往前,早在去年百度發(fā)布文心一言時(shí),李彥宏就稱“百度文心一言和OpenAI差距可能在兩個(gè)月左右”,但王小川直言“這可能是平行宇宙里的李彥宏說的,不是我們這個(gè)世界里的”。至于彼時(shí)百度文心一言和ChatGPT的差距究竟有多大,當(dāng)前文心一言的使用體驗(yàn)有沒有追上GPT-4o,其實(shí)明眼人都能看得出來。

再加上一直以來重發(fā)布、輕落地,重宣傳、輕體驗(yàn)的大模型應(yīng)用功能迭代,很難讓人不懷疑,以技術(shù)出身的Robin,是真的跟隨百度進(jìn)入了AI時(shí)代,還是在潛移默化之間被筑起的信息繭房慢慢同化,成為了那些產(chǎn)品開發(fā)人員、業(yè)務(wù)人員乃至公關(guān)人員的“發(fā)聲筒”了?

作者:楊啟隆
編輯:丁力

本文由人人都是產(chǎn)品經(jīng)理作者【新識(shí)研究所】,微信公眾號(hào):【新識(shí)研究所】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 李彥宏在百度世界2024大會(huì)上提出,大模型技術(shù)已經(jīng)“基本消除了幻覺”,并通過檢索增強(qiáng)的文生圖技術(shù)(iRAG)展示了其在圖片生成上的進(jìn)步。然而,實(shí)際測試顯示,文心一言在消除幻覺方面似乎并不穩(wěn)定,有時(shí)甚至與宣稱的效果相去甚遠(yuǎn)。這種現(xiàn)象引發(fā)了外界對(duì)百度大模型技術(shù)實(shí)際應(yīng)用效果的質(zhì)疑,也表明在實(shí)際應(yīng)用中,技術(shù)的宣稱與實(shí)際效果之間可能存在差距。

    來自遼寧 回復(fù)