優(yōu)等生歸來(lái),谷歌最強(qiáng)大模型Gemini能否打敗GPT-4?
在當(dāng)?shù)貢r(shí)間12月6日,谷歌發(fā)布了大模型Gemini,某種程度上,我們可以將Gemini看作是谷歌用來(lái)應(yīng)對(duì)GPT-4的“殺手锏”。那么,Gemini的核心優(yōu)勢(shì)在于哪些方面?當(dāng)我們將谷歌和OpenAI二者進(jìn)行對(duì)比時(shí)?我們可以得出什么結(jié)論?
“沉寂”已久的谷歌終于放大招了。
美國(guó)當(dāng)?shù)貢r(shí)間12月6日,谷歌發(fā)布多模態(tài)大模型Gemini。谷歌DeepMind直接宣布,Gemini是“谷歌最大、最強(qiáng)的人工智能模型”。
Google Deepmind 的官方賬號(hào)截圖,來(lái)源:谷歌DeepMind
Gemini谷歌是從頭開始構(gòu)建的多模態(tài)模型,這也是更接近人類認(rèn)識(shí)世界的方式。
作為谷歌用來(lái)應(yīng)對(duì)GPT-4的“殺手锏”。Gemini在32個(gè)多模態(tài)基準(zhǔn)測(cè)試中取得了30個(gè)SOTA(State Of The Art,即當(dāng)前最優(yōu)效果)的記錄,是第一個(gè)在MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)測(cè)評(píng)上超過(guò)人類專家的模型。Gemini在此項(xiàng)取得的成績(jī)是90.0%,作為對(duì)比,人類專家的成績(jī)?yōu)?9.8%,GPT-4為86.4%。
Gemini共有三個(gè)版本:
- Gemini Ultra:適用于高度復(fù)雜的任務(wù);
- Gemini Pro:適用于擴(kuò)展至各種任務(wù)的Gemini模型;
- Gemini Nano:體量較小,適用于特定任務(wù)和移動(dòng)設(shè)備。
Gemini的三個(gè)版本,圖片來(lái)源:谷歌
“Gemini的多樣性讓它能夠在從移動(dòng)設(shè)備到大型數(shù)據(jù)中心的所有設(shè)備上運(yùn)行?!惫雀鐳eepMind產(chǎn)品副總裁Eli Collins說(shuō),“我們離新一代人工智能模型的愿景越來(lái)越近了?!?/strong>
“有了人工智能,我們將有機(jī)會(huì)以更大規(guī)模做一些重要的事情?!惫雀鐲EO Sundar Pichai在谷歌成立25周年公開信中就特意提到了人工智能。面對(duì)強(qiáng)勢(shì)的OpenAI,優(yōu)等生谷歌需要一款現(xiàn)象級(jí)產(chǎn)品,證明自己在人工智能領(lǐng)域的實(shí)力。
Gemini就是谷歌交出的答卷。
一、“打的就是精銳”
谷歌的Gemini模型的核心優(yōu)勢(shì)在于其原生多模態(tài)(natively multimodal)的特性。
以往的多模態(tài)大模型往往是通過(guò)分別針對(duì)不同模態(tài)訓(xùn)練單獨(dú)的組件,再將這些組件組合起來(lái)以模擬多模態(tài)功能的方法構(gòu)建的。雖然在某些任務(wù)(比如圖像描述)上表現(xiàn)良好,但在處理需要更深層次概念理解和復(fù)雜推理的任務(wù)時(shí),它們的表現(xiàn)往往不盡人意。
而谷歌的Gemini模型從一開始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練,再通過(guò)使用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提升了模型的有效性。這種原生的多模態(tài)訓(xùn)練方法使得Gemini在處理多種類型的數(shù)據(jù)和復(fù)雜任務(wù)時(shí)更為高效和精準(zhǔn),從而在多模態(tài)人工智能領(lǐng)域樹立了新的標(biāo)準(zhǔn)。
并且,Gemini的推出主要是“瞄準(zhǔn)OpenAI的GPT-4”而來(lái)。用《亮劍》里李云龍的話來(lái)說(shuō)就是——“打的就是精銳”。
在運(yùn)算效能方面,Gemini幾乎“全面吊打”GPT-4。Gemini Ultra在大模型研發(fā)被廣泛使用的32個(gè)學(xué)術(shù)基準(zhǔn)測(cè)試集中,在其中30個(gè)測(cè)試集的性能超過(guò)此前SOTA結(jié)果。其中,在多選問(wèn)題、數(shù)學(xué)問(wèn)題、Python代碼任務(wù)、閱讀等方面,Gemini的性能都超過(guò)了此前最先進(jìn)的水平。
谷歌稱,他們對(duì)MMLU采用了新的基準(zhǔn)方法,使Gemini能夠利用推理能力在回答難題之前進(jìn)行更仔細(xì)的思考,相比僅僅根據(jù)問(wèn)題的第一印象作答,Gemini的表現(xiàn)有顯著改進(jìn)。
Gemini Ultra在多個(gè)編碼基準(zhǔn)測(cè)試中表現(xiàn)出色,包括HumanEval和Natural2Code。其中僅Gemini僅在HellaSWAG數(shù)據(jù)集上的測(cè)試遜色于GPT-4。
HellaSWAG數(shù)據(jù)集主要用于研究扎根的常識(shí)推理能力,但是一位NLP領(lǐng)域的研究專家向「甲子光年」表示:”這并不能說(shuō)明GPT4的常識(shí)推理性能更好,因?yàn)椴荒芘懦鼵hatGPT的模型在HellaSWAG數(shù)據(jù)集上訓(xùn)練過(guò)。”
Gemini模型與GPT-4部分測(cè)試評(píng)分對(duì)比,圖片來(lái)源:谷歌
此外,在多模態(tài)方面,Gemini Ultra在新的MMMU基準(zhǔn)測(cè)試中取得了59.4%的最先進(jìn)得分,突顯了其多模態(tài)性和復(fù)雜推理能力。
在圖像基準(zhǔn)方面的測(cè)試中,Gemini Ultra不需要從圖像中提取文本就能進(jìn)行OCR處理,表現(xiàn)優(yōu)于之前最先進(jìn)的模型。
Gemini模型在多模態(tài)方面的與GPT-4V的測(cè)試對(duì)比,圖片來(lái)源:谷歌
Gemini 1.0被訓(xùn)練用于同時(shí)識(shí)別和理解文本、圖像、音頻等,因此它能更好地理解具有細(xì)微差別的信息,回答與復(fù)雜主題相關(guān)的問(wèn)題,尤其擅長(zhǎng)解釋數(shù)學(xué)和物理等復(fù)雜科目中的推理。
“推理缺陷”也是GPT系列存在的問(wèn)題。著名語(yǔ)言模型批評(píng)者Gary Marcus博士曾銳評(píng)道:“大語(yǔ)言模型沒(méi)法做一些有嚴(yán)格定義的工作:遵守國(guó)際象棋規(guī)則、五位數(shù)字相乘、在家譜中進(jìn)行可靠的推理、比較不同物體的重量等等?!?/p>
Gemini解答物理題演示案例,圖片來(lái)源:谷歌
盡管技術(shù)進(jìn)步顯著,但AI生成的虛假或捏造信息的問(wèn)題依然存在。Eli Collins指出,這仍是一個(gè)未被完全解決的研究難題。
但他同時(shí)也強(qiáng)調(diào),Gemini接受了谷歌迄今最為全面的安全評(píng)估,以確保其可靠性和安全性。谷歌對(duì)Gemini進(jìn)行了一系列對(duì)抗性測(cè)試,模擬惡意用戶使用模型,并輸入各種提示詞,以檢測(cè)模型是否會(huì)產(chǎn)生仇恨言論或表現(xiàn)出政治偏見(jiàn)。這些測(cè)試包括了“真實(shí)毒性提示詞”,由網(wǎng)絡(luò)收集的超過(guò)10萬(wàn)個(gè)提示詞組成,用以全面檢驗(yàn)?zāi)P偷姆磻?yīng)。
值得注意的是,Gemini是在谷歌自研的云芯片Tensor Processing Units(TPU)上完成訓(xùn)練的。特別是TPU v5p版本,在性能上有了顯著提升,使得模型訓(xùn)練速度相比前一代提高了2.8倍。據(jù)悉,TPU v5p芯片是專為數(shù)據(jù)中心訓(xùn)練及大型模型運(yùn)行而設(shè)計(jì)。
從12月13日起,開發(fā)人員和企業(yè)客戶可以通過(guò)Google AI Studio或Google Cloud Vertex AI來(lái)訪問(wèn)Gemini Pro模型。Google AI Studio是一個(gè)基于網(wǎng)絡(luò)的免費(fèi)開發(fā)工具,為開發(fā)人員提供API密鑰,從而快速創(chuàng)建原型并啟動(dòng)應(yīng)用程序。Vertex AI提供了定制化的Gemini以提供更為全面和管理的人工智能平臺(tái),并具有完整的數(shù)據(jù)控制功能,能利用谷歌云的額外功能,包括企業(yè)級(jí)的安全性、隱私保護(hù)以及數(shù)據(jù)治理和合規(guī)性。
此外,從Pixel 8 Pro設(shè)備開始,Android開發(fā)人員還可以通過(guò)Android 14中的新系統(tǒng)功能AICore來(lái)使用Gemini Nano。Gemini Nano是專為設(shè)備端任務(wù)設(shè)計(jì)的高效模型,通過(guò)注冊(cè)AICore的早期預(yù)覽版,開發(fā)人員可以深入探索其潛力,更便捷地利用Gemini的先進(jìn)技術(shù),并在Android生態(tài)系統(tǒng)的應(yīng)用開發(fā)中迸發(fā)更多可能性。
到2024年,谷歌計(jì)劃推出Bard Advanced,它與AI agent的初級(jí)形態(tài)十分相似。Bard Advanced將借助Gemini Ultra提供支持,可以迅速理解多模態(tài)輸入,包括文本、圖像、音頻和視頻,并作出相應(yīng)的響應(yīng)。
二、谷歌 VS OpenAI
在OpenAI的GPTs大放異彩時(shí),谷歌似乎過(guò)于沉寂了。
今年2月,谷歌在巴黎舉行活動(dòng)時(shí),因其聊天機(jī)器人Bard的一處失誤,市值蒸發(fā)了1000億美元,也引發(fā)了外界對(duì)于Bard準(zhǔn)確性的擔(dān)憂。
隨著OpenAI推出了ChatGPT,尤其是在必應(yīng)搜索中整合了GPT技術(shù),并首次在應(yīng)用程序下載量上超越了谷歌后,人們開始思考谷歌是否在已人工智能領(lǐng)域落后于競(jìng)爭(zhēng)對(duì)手。
事實(shí)上,谷歌才是在2017年提出的Transformer模型、為今天這場(chǎng)游戲制定規(guī)則的先行者。
谷歌對(duì)大模型”高地”的競(jìng)爭(zhēng)意識(shí)并不比OpenAI晚。2021年,谷歌便推出了1.6萬(wàn)億參數(shù)的Switch Transformer,強(qiáng)調(diào)稀疏多模態(tài)結(jié)構(gòu)的潛力。同時(shí),谷歌還提出了Flan-T5模型,通過(guò)更多監(jiān)督數(shù)據(jù)降低了模型規(guī)模,比GPT-3模型參數(shù)更少但性能更佳。
對(duì)于技術(shù)上的評(píng)估,《經(jīng)濟(jì)學(xué)人》在今年1月曾進(jìn)行了一項(xiàng)比較測(cè)試,向ChatGPT和谷歌基于Lamda的機(jī)器人Bard提出了數(shù)學(xué)、閱讀和約會(huì)建議等問(wèn)題。
測(cè)試結(jié)果顯示,谷歌AI在數(shù)學(xué)問(wèn)題上表現(xiàn)更佳,但ChatGPT在常識(shí)問(wèn)題上更準(zhǔn)確。幾天后OpenAI升級(jí)了ChatGPT,再次測(cè)試中在數(shù)學(xué)問(wèn)題上與谷歌AI持平。盡管ChatGPT作為一個(gè)大型語(yǔ)言模型訓(xùn)練成本高、迭代難,但也顯示了它持續(xù)進(jìn)化的巨大潛力。值得注意的是,谷歌的語(yǔ)言模型與ChatGPT在性能上是旗鼓相當(dāng)?shù)摹?/strong>
在這場(chǎng)對(duì)決中,谷歌和微軟都需要成本效益更高的解決方案。谷歌在AI領(lǐng)域取得了不少研究進(jìn)展,但尚未將這些成果部署和變現(xiàn),類似于微軟在過(guò)去的某些時(shí)期。這可能是因?yàn)楣雀璧凸懒宋④浐蚈penAI的競(jìng)爭(zhēng)實(shí)力,或者過(guò)于自信于自己在搜索引擎領(lǐng)域的主導(dǎo)地位。
「甲子光年」綜合多方觀點(diǎn)分析得出,谷歌在技術(shù)前瞻性上領(lǐng)先,OpenAI更專注于產(chǎn)品的打磨。
在Sam Altman領(lǐng)導(dǎo)下的OpenAI專注于產(chǎn)品為導(dǎo)向的工作,致力于擴(kuò)展和優(yōu)化模型,主要關(guān)注細(xì)節(jié)精調(diào)方法。
谷歌則在技術(shù)發(fā)展的方向上始終保持著積極和前瞻的態(tài)度,不過(guò)在整體戰(zhàn)略規(guī)劃上卻屢次調(diào)整。
谷歌在稀疏模型架構(gòu)上進(jìn)行了深入探索。只是兩年后的,萬(wàn)億級(jí)別的Switch Transformer幾乎沒(méi)產(chǎn)生任何水花,而千億參數(shù)級(jí)別的GPTs系列卻風(fēng)生水起。同樣,被反復(fù)改進(jìn)的Flan-T5模型雖然在性能上超越了GPT-3,但其優(yōu)化進(jìn)展相對(duì)緩慢。
在谷歌“選擇困難癥”期間,OpenAI已經(jīng)完成了對(duì)ChatGPT的訓(xùn)練。
在2022年9月,谷歌旗下的DeepMind推出了麻雀(Sparrow)模型,和ChatGPT一樣,采取了基于人類反饋的強(qiáng)化學(xué)習(xí)(RL)框架。該模型采用了小型參數(shù)設(shè)置,與谷歌看重的LaMDA和PaLM模型的思路有明顯不同。只是谷歌并未能迅速確定麻雀模型是否是最優(yōu)選擇,這也導(dǎo)致了麻雀模型的產(chǎn)品化滯緩,最終未能“飛上枝頭變鳳凰”。
“猶豫不決”似乎一直是谷歌的宿疾。“但遲到總比不做好!終于有了OpenAI王座的有力競(jìng)爭(zhēng)者?!痹贕oogle公布消息后,英偉達(dá)AI科學(xué)家Jim Fan評(píng)論道。
今年4月,谷歌將Google Brain和DeepMind團(tuán)隊(duì)合并,成立 Google DeepMind。有人將這一團(tuán)隊(duì)?wèi)蚍Q為“AI復(fù)仇者聯(lián)盟”。原Google AI產(chǎn)品負(fù)責(zé)人Eli Collins被委以重任,擔(dān)任新團(tuán)隊(duì)的產(chǎn)品副總裁。
目前,Gemini Pro和Gemini Nano已在聊天機(jī)器人Bard和智能手機(jī)Pixel 8 Pro上集成,實(shí)現(xiàn)了更為高級(jí)的推理、規(guī)劃、理解等能力。而更為強(qiáng)大的Gemini Ultra將在明年發(fā)布。
不知OpenAI會(huì)如何“應(yīng)戰(zhàn)”呢?或許我們很快便可以等到GPT-5的發(fā)布了。
不過(guò),優(yōu)等生谷歌并不完全在意這一時(shí)之戰(zhàn),而是在著眼未來(lái)。
“我們對(duì)答案的探索將在未來(lái)25年推動(dòng)非凡的技術(shù)進(jìn)步。到2048年時(shí),如果有一位青少年在世界上的某個(gè)地方,看著我們用人工智能建造的一切聳聳肩,我們就知道我們成功了。然后,我們就回去工作。”
谷歌CEO Sundar Pichai在谷歌成立25周年公開信中如是說(shuō)。
*參考資料:
《Introducing Gemini: our largest and most capable AI model》,谷歌
《ChatGPT大熱,谷歌為何在自己的地盤輸給OpenAI?》,界面新聞
作者:蘇霍伊;編輯:王博
原文標(biāo)題:優(yōu)等生歸來(lái),谷歌最強(qiáng)大模型Gemini能否打敗GPT4?|甲子光年
來(lái)源公眾號(hào):甲子光年(ID:jazzyear),立足中國(guó)科技創(chuàng)新前沿陣地,動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!