試用完谷歌的Gemini,我只想說(shuō)GPT-4有點(diǎn)遜色
隨著AI大模型的推廣,眾多廠商紛紛下水,谷歌悶聲放大招,推出了最新的人工智能模型 Gemini,甚至放言稱它是規(guī)模最大、能力最強(qiáng)的人工智能模型。它與GPT-4相比有什么優(yōu)越性呢?一起來(lái)看看吧!
告訴 GPT-4 :安,勿念。我這邊和谷歌 Gemini 過(guò)得很幸福。
就在今天凌晨,憋了好久的谷歌開大了,直接推出了最新的人工智能模型 Gemini (雙子座)。
這個(gè)被谷歌稱為規(guī)模最大、能力最強(qiáng)的人工智能模型,如果光看官方的演示視頻,那真的過(guò)于高級(jí)了點(diǎn)。
在視頻里, Gemini 不僅秒識(shí)別演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇,而且整個(gè)過(guò)程中對(duì)答如流,各種語(yǔ)氣助詞熟練得飛起。
如果沒(méi)提前說(shuō),你甚至都會(huì)以為這就是電影里的賈維斯。
要真這么牛逼,還要什么 GPT-4 ???
不過(guò)差評(píng)君仔細(xì)看了下發(fā)現(xiàn),這次發(fā)布的 Gemini 其實(shí)是一個(gè)家族式大模型,分別是“中杯”Gemini Nano、“大杯”Gemini Pro 和“超大杯”Gemini Ultra 。
目前現(xiàn)在大家能用上的都是 Gemini Pro ,而大部分的測(cè)試演示都是基于“超大杯”Gemini Ultra 來(lái)的。
從官方放出的數(shù)據(jù)來(lái)看,雖然每個(gè)版本都有自己合適的環(huán)境,但不同版本間,性能還是有著明顯差異的。
而“超大杯”的 Gemini Ultra 的能力確實(shí)是杠杠的。
不僅在各種常規(guī)測(cè)試?yán)锒?strong>薄紗了 GPT-4 。
甚至在MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)測(cè)試?yán)铮珿emini Ultra超過(guò)GPT-4還不夠,還超越了人類專家,成為了第一個(gè)在該方面超越人類的模型。
除了在常規(guī)能力上的全面超越 GPT-4 , Gemini 最特殊的一點(diǎn)是,它是谷歌帶來(lái)的首個(gè)多模態(tài)大模型,也就是能不光能打字互動(dòng),也能進(jìn)行語(yǔ)音、視頻、圖片的互動(dòng)。
按照谷歌的說(shuō)法,現(xiàn)有的所謂多模態(tài)大模型,都是單獨(dú)訓(xùn)練了文本、視覺和音頻等模型,再把這幾個(gè)拼接起來(lái)。
這樣出來(lái)的“散裝”多模態(tài)大模型,在遇到圖片、文字、語(yǔ)音或者視頻同時(shí)出現(xiàn)時(shí),只會(huì)分解出不同模塊各自回答,然后匯總各個(gè)部分的回答最后形成答案。
而 Gemini 從根上就是個(gè)多模態(tài)模型,然后又通過(guò)大量多模態(tài)數(shù)據(jù)訓(xùn)練,它能夠一開始就同步理解多模態(tài)。
這就好比遇到一個(gè)中日韓英混雜的旅游團(tuán),以往都是找懂對(duì)應(yīng)語(yǔ)言的導(dǎo)游組成導(dǎo)游團(tuán)去帶隊(duì)。
而 Gemini 的做法是找了一個(gè)通曉中日韓英四門語(yǔ)言的導(dǎo)游,一個(gè)人就能無(wú)縫安排所有游客。
所以不出意外,在此前 GPT-4V “遙遙領(lǐng)先”的多模態(tài)測(cè)試?yán)铮?Gemini 也呈現(xiàn)了一種全面超越的姿態(tài)。
但也就是看起來(lái)過(guò)于牛逼,以至于顯得不夠真實(shí),所以 Gemini 也在網(wǎng)上招來(lái)不少質(zhì)疑。
比如有人吐槽明明 90.0%和 89.8%就差了千分之二,結(jié)果圖里看起來(lái)像是巨大提升。
而且不少人還發(fā)現(xiàn)在不少測(cè)試?yán)?,谷歌用了些?strong>春秋手法”。
因?yàn)榻o Gemini Ultra 和 GPT-4 使用的測(cè)試方法并不一樣, Gemini Ultra 用的是自家特調(diào)的全新方法 CoT@32*。
在這種新方法下, GPT-4 得分提升一般般,而 Gemini 卻進(jìn)步明顯。
可如果 Gemini Ultra 和 GPT-4 的同一標(biāo)準(zhǔn),那它的得分就只有 83.7 ,還不如 GPT-4 。
甚至,還有不少人懷疑那個(gè)演示互動(dòng)視頻也是剪輯出來(lái)的賣家秀,實(shí)際效果絕對(duì)沒(méi)那么牛。
這些真真假假的戲碼咱也不管了,因?yàn)楣雀枰呀?jīng)在 Bard 上用了微調(diào)后的 Gemini Pro ,所以我們也可以直接看看,這波升級(jí)后的 Bard 能耐到底漲了多少。
不過(guò),目前調(diào)整過(guò)的 Bard 只支持英文,所以我們找來(lái)了 GPT-4V 版的 ChatGPT ,用英文讓他們來(lái)一波華山論劍。
按照谷歌說(shuō)法,這次 Gemini 在多模態(tài)上的長(zhǎng)進(jìn)最大,所以今天,我們主要就測(cè)測(cè)這塊。
先考考它們的一些基礎(chǔ)常識(shí),丟一張八達(dá)嶺長(zhǎng)城的照片過(guò)去,讓它們猜猜這是什么地方。
沒(méi)想到一上來(lái) Bard 就給了 ChatGPT 一個(gè)下馬威, Bard 這邊準(zhǔn)確地給出了八達(dá)嶺長(zhǎng)城的答案。
而 ChatGPT 這邊卻有點(diǎn)底氣不足,只給了個(gè)長(zhǎng)城的答案,至于是哪段,它就沒(méi)具體說(shuō)。
不過(guò)馬有失蹄,偶爾一次失誤也沒(méi)啥,為了進(jìn)一步考驗(yàn)它們的圖片識(shí)別能力,這把我直接讓他們識(shí)別車的型號(hào)。
它們倒是都給出正確答案了:雪佛蘭科爾維特。
但細(xì)節(jié)上還是 Bard 要稍稍細(xì)致些,發(fā)動(dòng)機(jī)的型號(hào),馬力以及加速情況都寫出來(lái)了,查了下也都對(duì)的上,沒(méi)胡說(shuō)八道。
ChatGPT 這邊,就只簡(jiǎn)單給出了答案,帶了句性價(jià)比不錯(cuò)。
能識(shí)別出這些正兒八經(jīng)的圖片,也顯示不出有多大的能耐,畢竟現(xiàn)在這都是大模型的基本要求了。
于是差評(píng)君又上網(wǎng)找來(lái)了些梗圖,試試它們理解人類復(fù)雜思維的程度。
先是這個(gè)狗帶保護(hù)頭套的一個(gè)梗圖。
Bard 和 ChatGPT 給出的答案都差不多,都點(diǎn)明了帶上這個(gè)保護(hù)套后,狗狗很想舔舐傷口。
接下來(lái)我又試了下這個(gè)貓貓表情包,各位打工人應(yīng)該都能 get 到吧。
Bard 不僅讀出了大伙們討厭周一的意思,還認(rèn)出了這是 2012 年火的一只網(wǎng)紅貓。
ChatGPT 這邊回答得倒很簡(jiǎn)潔,意思也解讀出來(lái)了,和 Bard 旗鼓相當(dāng)。
畢竟,幽默作為一種對(duì)事物的詼諧、滑稽或不合邏輯的理解和共鳴。。。
能讀懂梗圖、理解幽默,至少需要 AI 有理解人類情感、經(jīng)驗(yàn)和文化背景的能力。
當(dāng)然,天天要碼字的差評(píng)君也得試試它的圖表分析能力,說(shuō)不定之后咱也能多了個(gè)生產(chǎn)力工具。。。
我從美國(guó)財(cái)政部的官網(wǎng)隨便找了張柱狀圖丟給它們,看看它們能讀出多少信息。
這塊兒, Bard 和 ChatGPT 就有點(diǎn)難分伯仲了,大家給出的信息點(diǎn)都大差不差,都準(zhǔn)確讀出了美國(guó)會(huì)加大對(duì)低等基礎(chǔ)設(shè)施州的投資力度。
就只是在表述語(yǔ)序上有一點(diǎn)差別,選哪個(gè)就看個(gè)人喜好了,不過(guò)要我說(shuō)白嫖黨還是 Bard 香啊。
最后,我們還搬出了大模型們的噩夢(mèng),也就是數(shù)學(xué)題,測(cè)了測(cè)它們的數(shù)學(xué)能力。
第一道是道初中難度的幾何題,讓它們求一下 ABO 的角度。
Bard 這邊小試牛刀,迅速判斷出了 ABO 是個(gè)等邊三角形,得到 ABO 是個(gè) 60°的答案。
在另一道,判斷哪些點(diǎn)連續(xù)但不可微的題目上, Bard 這邊也略勝一籌。
有點(diǎn)高數(shù)基礎(chǔ)的差友,應(yīng)該都能看出 C :x=-2 和 x=1 是正確答案。
Bard 這邊穩(wěn)扎穩(wěn)打,選出了正確答案 C 。
ChatGPT 繼續(xù)選擇破罐子破摔,支支吾吾選了個(gè)它認(rèn)為最有可能的答案 B 。。。
總得來(lái)講,在幾輪的測(cè)試對(duì)比之后,終于讓差評(píng)君遇個(gè)到能和 GPT-4V 打得有來(lái)有回,甚至有些小優(yōu)的大模型了。
而在幾天之后的 13 號(hào),開發(fā)者和企業(yè)用戶,也直接可以調(diào)用 Gemini Pro 的 API 了。
另外,谷歌還準(zhǔn)備把 Gemini 引入了 Pixel , Pixel 8 Pro 將是第一款運(yùn)行 Gemini Nano 的智能手機(jī)。
在接下來(lái)的幾個(gè)月中, Gemini 還會(huì)相繼和搜索、廣告、 Chrome 等服務(wù)和產(chǎn)品結(jié)合。
至于紙面實(shí)力“暴打”GPT-4V 的 Gemini Ultra ,則還要等到明年的年初,在 Bard Advanced 才能體驗(yàn)到。
最后,差評(píng)君想說(shuō)俗話講得好,巨人難轉(zhuǎn)身。。。不少人用這樣的比喻,來(lái)形容今年谷歌在 AI 新時(shí)代的困境。
畢竟上半年發(fā)布 Bard 的時(shí)候,甚至還因?yàn)橥瞥龅锰?,整出了不少笑話?/p>
谷歌的 AI 從遙遙領(lǐng)先,到淪為 OpenAI 追趕者的故事,似乎也成了科技圈的“傷仲永”,被大家當(dāng)成了典型。
但差評(píng)君覺得,巨人轉(zhuǎn)身的“難”,最起碼有兩層邏輯在里面。
第一層是愿不愿意轉(zhuǎn)身,另一層,才是成不成功的問(wèn)題。
無(wú)論是雪藏“數(shù)碼相機(jī)”的柯達(dá),還是固守塞班系統(tǒng)到 2013 年的諾基亞,在第一層就出了些問(wèn)題。
咱們也能看到,至少在轉(zhuǎn)身的態(tài)度這塊兒,谷歌是沒(méi)得說(shuō)。
而目前的 Gemini 給我的感覺,雖說(shuō)沒(méi)有當(dāng)時(shí)初識(shí) ChatGPT 時(shí)的驚艷,但好歹,是谷歌該有的水平。
畢竟,大伙們可別忘了,當(dāng)年奧特曼、馬斯克等人創(chuàng)辦 OpenAI 的目的之一,就是為了打破谷歌在 AI 領(lǐng)域的壟斷。
包括“ GPT ”中的“ T ”,也就是 Transformer ,最早也是谷歌團(tuán)隊(duì)提出來(lái)的。
而起了個(gè)大早,趕了個(gè)晚集的谷歌,這次最起碼跟上了步伐。
當(dāng)然在通往 AGI 的道路上,差評(píng)君不好說(shuō)谷歌、 OpenAI 、或是其他誰(shuí)誰(shuí)誰(shuí)會(huì)第一個(gè)到終點(diǎn)、誰(shuí)的方向是不是走對(duì)了。
但不能否認(rèn)的是,如果一個(gè)內(nèi)力雄厚的巨人一旦轉(zhuǎn)身成功,方向還碰巧對(duì)了,并且還開啟氮?dú)饧铀佟??!?/p>
那,怕是誰(shuí)也擋不住。
撰文:八戒,編輯:江江 & 大餅 & 面線
來(lái)源公眾號(hào):差評(píng)(ID:chaping321),Debug the World。
原文標(biāo)題:試用完谷歌的Gemini,我只想說(shuō)GPT-4有點(diǎn)菜
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @差評(píng) 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
誰(shuí)要gpt4啊