免费在线一区二区高清无码，久久www免费免费人成年，亚洲午夜久久久无码精品，国产午夜精品福利久久，一区二区三区在线性爱视频，中文字幕天天躁日日躁狠狠躁，国产婷婷在线精品综合，亚洲性色高清在线丨

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

谷歌深夜放復(fù)仇殺器Gemini，最強(qiáng)原生多模態(tài)史詩(shī)級(jí)碾壓GPT-4！語(yǔ)言理解首超人類(lèi)

新智元

2023-12-07

1 評(píng)論 1622 瀏覽 1 收藏

19 分鐘

谷歌旗下的大模型Gemini終于在今天深夜上線了，那么綜合來(lái)看，Gemini的表現(xiàn)如何？它是否可以超過(guò)GPT-4呢？這篇文章里，作者就針對(duì)大模型Gemini做了解讀，一起來(lái)看。

谷歌的復(fù)仇大殺器Gemini，深夜忽然上線！

被ChatGPT壓著打了整整一年，谷歌選擇在12月的這一天，展開(kāi)最強(qiáng)反擊戰(zhàn)。

多模態(tài)Gemini，迄今規(guī)模最大、能力最強(qiáng)的谷歌大模型，在文本、視頻、語(yǔ)音等多個(gè)領(lǐng)域超越了GPT-4，是真正的一雪前恥。

人類(lèi)有五種感官，我們所建造的世界、所消費(fèi)的媒體，都是以這樣的方式所呈現(xiàn)。

而Gemini的出現(xiàn)，就是邁向真正通用的AI模型的第一步！

Gemini的誕生，代表著AI模型的巨大飛躍，谷歌所有的產(chǎn)品，都將隨之改頭換面。

塞進(jìn)多模態(tài)模型的搜索引擎、廣告產(chǎn)品、Chrome瀏覽器……這，就是谷歌給我們的未來(lái)。

一、多模態(tài)的史詩(shī)級(jí)創(chuàng)新

以前，多模態(tài)大模型就是將純文本、純視覺(jué)和純音頻模型拼接在一起，就像OpenAI的GPT-4、DALL·E和Whisper那樣。然而，這并不是最優(yōu)解。

相比之下，在設(shè)計(jì)之初，多模態(tài)就是Gemini計(jì)劃的一部分。

從一開(kāi)始，Gemini就在不同模態(tài)上進(jìn)行了訓(xùn)練。隨后，研究人員又用額外的多模態(tài)數(shù)據(jù)進(jìn)行了微調(diào)，進(jìn)一步提升了模型的有效性。最終，實(shí)現(xiàn)了「無(wú)縫」地理解和推理各種模態(tài)的輸入內(nèi)容。

從結(jié)果上來(lái)看，Gemini的性能要遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型，而且它的功能幾乎在每個(gè)領(lǐng)域都是SOTA級(jí)別的。

而這個(gè)最大、最有能力的模型，也意味著Gemini可以用和人類(lèi)一樣的方式理解我們周?chē)氖澜纾⑶椅杖魏晤?lèi)型的輸入和輸出——無(wú)論是文字，還是代碼、音頻、圖像、視頻。

Gemini猜對(duì)了紙團(tuán)在最左邊的杯子里

Google DeepMind首席執(zhí)行官兼聯(lián)合創(chuàng)始人Demis Hassabis表示，谷歌一直對(duì)非常通用的系統(tǒng)感興趣。

而這里最關(guān)鍵的，就是如何混合所有這些模式，如何從任意數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù)，然后給出同樣多樣化的響應(yīng)。

DeepMind和谷歌大腦合并后，果然拿出了真東西。

之所以命名為Gemini，就是因?yàn)楣雀鑳纱驛I實(shí)驗(yàn)室的合體，另外也一個(gè)解釋是參考了美國(guó)宇航局的Gemini項(xiàng)目，后者為阿波羅登月計(jì)劃鋪平了道路。

二、首次超越人類(lèi)，大幅碾壓GPT-4

雖然沒(méi)有正式公布，但根據(jù)內(nèi)部消息，Gemini有萬(wàn)億參數(shù)，訓(xùn)練所用的算力甚至達(dá)到GPT-4的五倍。

既然是被拿來(lái)硬剛GPT-4的模型，Gemini當(dāng)然少不了經(jīng)歷最嚴(yán)格的測(cè)試。

谷歌在多種任務(wù)上評(píng)估了兩種模型的性能，驚喜地發(fā)現(xiàn)：從自然圖像、音頻、視頻理解到數(shù)學(xué)推理，Gemini Ultra在32個(gè)常用的學(xué)術(shù)基準(zhǔn)的30個(gè)上，已經(jīng)超越GPT-4！

而在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）測(cè)試中，Gemini Ultra以90.0%的高分，首次超過(guò)了人類(lèi)專(zhuān)家。

Gemini是第一個(gè)在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）上超越人類(lèi)專(zhuān)家的模型

MMLU測(cè)試包括57個(gè)學(xué)科，如數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理，旨在考察世界知識(shí)和解決問(wèn)題的能力。

在這50多個(gè)不同學(xué)科領(lǐng)域中的每一個(gè)中，Gemini都和這些領(lǐng)域最好的專(zhuān)家一樣好。

谷歌為MMLU設(shè)定的新基準(zhǔn)，讓Gemini在回答復(fù)雜問(wèn)題前，能夠更仔細(xì)地發(fā)揮推理能力，相比于僅依賴(lài)于直覺(jué)反應(yīng)，這種方法帶來(lái)了顯著提升。

在新的MMMU基準(zhǔn)測(cè)試中，Gemini Ultra也取得了59.4%的高分，這一測(cè)試包括了跨越不同領(lǐng)域的多模態(tài)任務(wù)，這些任務(wù)需要深入的推理過(guò)程。

圖像基準(zhǔn)測(cè)試中，Gemini Ultra的表現(xiàn)也超過(guò)了之前的領(lǐng)先模型，而且，這一成就是在沒(méi)有OCR系統(tǒng)幫助的情況下實(shí)現(xiàn)的！

種種測(cè)試表明，Gemini在多模態(tài)處理上表現(xiàn)出了強(qiáng)大的能力，并且在更復(fù)雜的推理上也有著極大潛力。

詳情可參閱Gemini技術(shù)報(bào)告：

報(bào)告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

1. 中杯、大杯、超大杯！

Gemini Ultra是谷歌迄今為止創(chuàng)建的最強(qiáng)大LLM最大，能夠完成高度復(fù)雜的任務(wù)，主要面向數(shù)據(jù)中心和企業(yè)級(jí)應(yīng)用。

Gemini Pro是性能最好的模型，用于廣泛的任務(wù)。它會(huì)為許多谷歌的AI服務(wù)提供動(dòng)力，并且從今天起，成為Bard的支柱。

Gemini Nano是最高效的模型，用于設(shè)備端任務(wù)，可以在安卓設(shè)備上本地和離線運(yùn)行，Pixel 8 Pro的用戶(hù)就能馬上體驗(yàn)到。其中，Nano-1的參數(shù)為1.8B，Nano-2為3.25B。

Gemini最基本的模型能做到文本輸入和文本輸出，但像Gemini Ultra這樣更強(qiáng)大的模型，則可以同時(shí)處理圖像、視頻和音頻。

不僅如此，Gemini甚至還能學(xué)會(huì)做動(dòng)作和觸摸這種更像機(jī)器人的功能！

以后，Gemini會(huì)獲得更多的感官，變得更加有意識(shí)，更加準(zhǔn)確。

雖然幻覺(jué)問(wèn)題仍然不可避免，但模型知道的越多，性能就會(huì)越好。

2. 文本、圖像、音頻精準(zhǔn)理解

Gemini 1.0經(jīng)過(guò)訓(xùn)練，可以同時(shí)識(shí)別和理解文本、圖像、音頻等各種形式的輸入內(nèi)容，因此它也能更好地理解細(xì)微的信息，回答與復(fù)雜主題相關(guān)的各類(lèi)問(wèn)題。

比如，用戶(hù)先是上傳了一段非英語(yǔ)的音頻，然后又錄了一段英語(yǔ)的音頻來(lái)提問(wèn)。

要知道，一般設(shè)計(jì)音頻的歸納，都是用文字輸入prompt。而Gemini卻可以同時(shí)處理兩段不同語(yǔ)言的音頻，精準(zhǔn)輸出所需要的摘要內(nèi)容。

更厲害的是，如果我想做一個(gè)煎蛋，不僅可以用語(yǔ)音問(wèn)Gemini，還可以把手頭有的食材拍個(gè)照片一并發(fā)過(guò)去。

然后，Gemini就會(huì)結(jié)合音頻中發(fā)送的需求，以及配圖中的食材，手把手教你該怎么做好一個(gè)煎蛋。

甚至，每完成一步，都可以拍個(gè)照片，而Gemini則可以根據(jù)實(shí)際進(jìn)度繼續(xù)指導(dǎo)下一步該做什么。

手癌星人、不會(huì)做飯星人都有救了！

而且，這項(xiàng)能力還這使Gemini特別擅長(zhǎng)解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理問(wèn)題。

比如，家長(zhǎng)想在輔導(dǎo)孩子作業(yè)的時(shí)候省點(diǎn)事，該怎么辦呢？

答案很簡(jiǎn)單，直接拍張圖上去，Gemini的推理能力足以解決數(shù)學(xué)、物理等各類(lèi)理科問(wèn)題。

針對(duì)其中任何一個(gè)步驟，都可以追問(wèn)Gemini來(lái)獲得更具體的解釋。

甚至，還可以就出錯(cuò)的點(diǎn)，直接讓Gemini輸出一個(gè)和出錯(cuò)類(lèi)型相似的題目鞏固一下。

3. 復(fù)雜推理輕松搞定

此外，Gemini 1.0具有的多模態(tài)推理能力，可以更好地理解復(fù)雜的書(shū)面和視覺(jué)信息。這使得它在發(fā)掘埋藏在海量的數(shù)據(jù)中難以辨別的知識(shí)方面具有優(yōu)越的性能。

通過(guò)閱讀、過(guò)濾和理解信息，Gemini 1.0還能夠從成千上萬(wàn)的文檔中提取出獨(dú)到的觀點(diǎn)，從而助力從科學(xué)到金融等眾多領(lǐng)域?qū)崿F(xiàn)新的突破。

4. AlphaCode 2：編碼能力超85%人類(lèi)選手

當(dāng)然，基準(zhǔn)測(cè)試終究只是測(cè)試，對(duì)Gemini的真正考驗(yàn)，是想要用它來(lái)寫(xiě)代碼的用戶(hù)。

寫(xiě)代碼，就是谷歌為Gemini打造的殺手級(jí)功能。

Gemini 1.0模型不僅可以理解、解釋和生成世界上最主流的編程語(yǔ)言，比如Python、Java、C++和Go的高質(zhì)量代碼。同時(shí)它能夠跨語(yǔ)言工作，并對(duì)復(fù)雜信息進(jìn)行推理。

從這一點(diǎn)看，Gemini毫無(wú)疑問(wèn)會(huì)成為世界領(lǐng)先的編程基礎(chǔ)模型之一。

兩年前，谷歌推出過(guò)一款叫做AlphaCode的產(chǎn)品，它也是第一個(gè)在編程競(jìng)賽中達(dá)到具有競(jìng)爭(zhēng)力水平的AI代碼生成系統(tǒng)。

而基于定制版的Gemini，谷歌推出了更先進(jìn)的代碼生成系統(tǒng)——AlphaCode 2。

在面對(duì)不僅涉及編程，還涉及復(fù)雜的數(shù)學(xué)和計(jì)算機(jī)科學(xué)理論等領(lǐng)域的問(wèn)題時(shí)，AlphaCode 2都表現(xiàn)出了卓越的性能。

在與初代AlphaCode同樣的測(cè)試平臺(tái)上，谷歌的開(kāi)發(fā)人員也對(duì)AlphaCode 2進(jìn)行了測(cè)試。

結(jié)果顯示，新模型展現(xiàn)出了顯著的進(jìn)步，解決的問(wèn)題數(shù)幾乎是之前AlphaCode的兩倍。

其中，AlphaCode 2編程的性能超過(guò)了85%的人類(lèi)程序員，相比之下，AlphaCode只超過(guò)了約50%的程序員。

不僅如此，當(dāng)人類(lèi)程序員與AlphaCode 2協(xié)作時(shí)，人類(lèi)程序員為代碼樣例設(shè)定特定的要求，Alphacode 2的性能會(huì)進(jìn)一步提升。

AlphaCode 2的運(yùn)作依托于強(qiáng)大的LLM，并結(jié)合了專(zhuān)為競(jìng)賽編程設(shè)計(jì)的先進(jìn)搜索和重排機(jī)制。

如下圖所示，新的模型主要由以下幾部分組成：

– 多個(gè)策略模型，用于為每個(gè)問(wèn)題生成各自的代碼樣本；

– 采樣機(jī)制，能夠生成多樣化的代碼樣本，以在可能的程序解決方案中進(jìn)行搜索；

– 過(guò)濾機(jī)制，移除那些不符合問(wèn)題描述的代碼樣本；

– 聚類(lèi)算法，將語(yǔ)義上相似的代碼樣本進(jìn)行分組，以減少重復(fù)；

– 評(píng)分模型，用于從10個(gè)代碼樣本集群中篩選出最優(yōu)解。

詳情可參閱Alpha Code 2技術(shù)報(bào)告：

報(bào)告地址：https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

三、更可靠、更高效、可擴(kuò)展

對(duì)谷歌來(lái)說(shuō)同樣重要的是，Gemini顯然是一個(gè)效率更高、更可靠、可擴(kuò)展的模型。

它是在谷歌自己的張量處理單元上訓(xùn)練的，比谷歌以前的模型（如PaLM）運(yùn)行起來(lái)更快、更便宜。

開(kāi)發(fā)人員使用了谷歌內(nèi)部研發(fā)的張量處理單元TPU v4和v5e，在AI優(yōu)化的基礎(chǔ)設(shè)施上對(duì)Gemini 1.0進(jìn)行了大規(guī)模的訓(xùn)練。

而可靠、可擴(kuò)展的訓(xùn)練模型和最高效的服務(wù)模型，就是谷歌做出Gemini的重要目標(biāo)。

在TPU上，Gemini的運(yùn)行速度明顯快于早期規(guī)模較小、能力較弱的模型。這些定制設(shè)計(jì)的AI加速器是谷歌大模型產(chǎn)品的核心。

要知道，這些產(chǎn)品為搜索、YouTube、Gmail、谷歌地圖、Google Play和Android等數(shù)十億用戶(hù)提供服務(wù)。它們還幫助了世界各地的科技公司經(jīng)濟(jì)、高效地訓(xùn)練大模型。

除了Gemini，谷歌在今天還發(fā)布了迄今為止最強(qiáng)大、最高效，并且可擴(kuò)展的TPU系統(tǒng)——Cloud TPU v5p，專(zhuān)為訓(xùn)練尖端的AI模型而設(shè)計(jì)。

新一代TPU將加速Gemini的發(fā)展，幫助開(kāi)發(fā)人員和企業(yè)客戶(hù)更快地訓(xùn)練大規(guī)模生成式AI模型，開(kāi)發(fā)出新產(chǎn)品和新功能。

四、Gemini，讓谷歌再次偉大？

顯然，在Pichai和Hassabis看來(lái)，Gemini的發(fā)布僅僅是一個(gè)開(kāi)始——一個(gè)更大的項(xiàng)目即將開(kāi)啟。

Gemini是谷歌一直在等待的模式，在OpenAI和ChatGPT接管世界后，Gemini是谷歌探索一年得出的結(jié)論。

發(fā)布「紅色警報(bào)」后，谷歌一直在追趕，但兩人都表示，不愿意為了跟上步伐而走得太快，尤其是我們?cè)絹?lái)越接近AGI。

Gemini是否會(huì)改變世界？最好的情況是，它能幫谷歌在生成式AI競(jìng)賽中趕上OpenAI。

但劈柴、Hassabis等人似乎都認(rèn)為，這是谷歌真正偉大的開(kāi)始。

今天發(fā)布的技術(shù)報(bào)告，沒(méi)有透露架構(gòu)細(xì)節(jié)、模型參數(shù)或訓(xùn)練數(shù)據(jù)集。

艾倫人工智能研究所前CEO Oren Etzioni說(shuō)，「沒(méi)有理由懷疑Gemini在這些基準(zhǔn)上比GPT-4更好，但沒(méi)準(zhǔn)GPT-5會(huì)比Gemini做得更好。」

打造像Gemini這樣的巨量模型，可能需要花費(fèi)數(shù)億美元，但對(duì)于在通過(guò)云提供AI占據(jù)主導(dǎo)地位的公司來(lái)說(shuō)，最終的回報(bào)可能是數(shù)十億甚至數(shù)萬(wàn)億美元。

「這是一場(chǎng)不能失敗，必須打贏的戰(zhàn)爭(zhēng)?！?/p>

參考資料：

https://blog.google/technology/ai/google-gemini-ai/#availability

https://deepmind.google/technologies/gemini/#hands-on

為我投票

我在參加人人都是產(chǎn)品經(jīng)理2023年度評(píng)選，希望喜歡我的文章的朋友都能來(lái)支持我一下~

點(diǎn)擊下方鏈接進(jìn)入我的個(gè)人參選頁(yè)面，點(diǎn)擊紅心即可為我投票。

每人每天最多可投30票，投票即可獲得抽獎(jiǎng)機(jī)會(huì)，抽取書(shū)籍、人人都是產(chǎn)品經(jīng)理紀(jì)念周邊&起點(diǎn)課堂會(huì)員等好禮哦！

投票傳送門(mén)：https://996.pm/z4Knm

編輯：編輯部

來(lái)源公眾號(hào)：新智元（ID：AI_era），“智能+”中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

105篇作品 262032總閱讀量

初入職場(chǎng)設(shè)計(jì)師的學(xué)習(xí)成長(zhǎng)之路——如何通過(guò)閱讀，提升個(gè)人視野？

03-232153 瀏覽

熱點(diǎn)營(yíng)銷(xiāo)依舊是“最具性?xún)r(jià)比”的營(yíng)銷(xiāo)方式之一

05-267308 瀏覽

短視頻搶不走閱文的生意

03-292401 瀏覽

大廠們投注的賽道，正在被抖音侵蝕

01-172163 瀏覽

別硬把大模型往手機(jī)里塞

10-201682 瀏覽

評(píng)論

花盆前空翻

阻礙技術(shù)進(jìn)步的是那堵墻！

最近來(lái)自美國(guó) 回復(fù)

知識(shí)付費(fèi)的商業(yè)閉環(huán)

02-268609 瀏覽
信息化與數(shù)字化：核心差異與影響

11-246117 瀏覽
廣告通過(guò)欺騙『海馬體』進(jìn)入心智

05-162440 瀏覽

谷歌深夜放復(fù)仇殺器Gemini，最強(qiáng)原生多模態(tài)史詩(shī)級(jí)碾壓GPT-4！語(yǔ)言理解首超人類(lèi)

一、多模態(tài)的史詩(shī)級(jí)創(chuàng)新

二、首次超越人類(lèi)，大幅碾壓GPT-4

1. 中杯、大杯、超大杯！

2. 文本、圖像、音頻精準(zhǔn)理解