地表最強,Gemini 2.5Pro發(fā)布!多模型對比實測到底如何?請看文章
Google近期發(fā)布的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模態(tài)處理能力,引發(fā)了業(yè)界的廣泛關(guān)注。本文將詳細介紹Gemini 2.5 Pro的關(guān)鍵特性,并通過與多個主流模型的對比實測,深入分析其在不同任務(wù)中的表現(xiàn),探討其是否真的能夠成為“地表最強”的AI模型。
Google發(fā)布 Gemini 2.5 Pro Experimental
文章結(jié)構(gòu):
先介紹Gemini 2.5 Pro發(fā)布內(nèi)容和基準評測。然后介紹筆者的多個模型實際對比測評。
發(fā)布內(nèi)容要點
- 超越所有模型重奪第一,在多個領(lǐng)域標準評估中取得SOTA成績
- 一個全新的Thinking Model(思考型模型)
- 大幅提升邏輯推理、編碼生成、復(fù)雜任務(wù)處理能力
- 支持 100萬 tokens 上下文(未來將支持200 萬)
- 在 Humanity’s Last Exam(測試 AI 在人類高階知識推理的能力)中,Gemini 2.5創(chuàng)下 18.8% 得分,為無工具模型中全球最強。
- 在 LMArena 上,獲得當前 人類偏好最高分
- 這個是重點!多模態(tài)原生支持(非外掛),原生支持:文本,圖片(含圖表、草圖、照片),視頻(含字幕、動作識別、語義理解),音頻(如語音合成/識別),代碼(整 repo 分析)。統(tǒng)一架構(gòu)共享注意力機制,實現(xiàn)圖-文-音-碼同源協(xié)同處理。
評測數(shù)據(jù)
基準測試
知識推理&科學(xué)&數(shù)據(jù)表現(xiàn)
筆者實測
測試題目
這個是不同大模型的一個測評圖表,首先解讀不同數(shù)據(jù)集的含義和作用。另外,對整個的測評結(jié)果,以deepseek v3-0324版本為基準進行解讀分析
選擇依據(jù)
圖文結(jié)合的多模態(tài)數(shù)據(jù)輸入更考驗?zāi)P?/p>
輸入數(shù)據(jù)的圖標有一定的數(shù)據(jù)和對比,可以考驗?zāi)P妥R別、理解、推理等能力,一個題目綜合性評測
評測對象
幾乎主流的模型都參與的評測,包括但不限grok3,O3 mini,deepseek R1等
評測結(jié)論
只有Gemini 2.5Pro可以完全理解輸入的圖文結(jié)合數(shù)據(jù),并按照要求進行知識解答,圖標數(shù)據(jù)的正確分析對比。意外插曲是輸出內(nèi)容為英文。
評測結(jié)果
Gemini 2.5 pro
回答完整、詳細、準確??梢宰鳛閳D標類內(nèi)容分析、學(xué)習(xí)的模版參考。
部分原圖,下面文字是完整輸出
原文翻譯內(nèi)容
好的,讓我們來分析一下這個條形圖,它比較了不同的大型語言模型。
第一部分:理解數(shù)據(jù)集(基準測試)
這些數(shù)據(jù)集用于評估大型語言模型在不同領(lǐng)域的功能,主要集中在知識、推理、數(shù)學(xué)和編程方面。
1. MMLU-Pro(EM):
? 含義: MMLU代表大規(guī)模多任務(wù)語言理解。這是一個廣泛的基準測試,旨在衡量模型在訓(xùn)練過程中獲得的知識,涵蓋57個不同學(xué)科,如人文學(xué)科、社會科學(xué)、STEM等?!癙ro”可能表示這是原始MMLU的一個更具挑戰(zhàn)性或更精細的版本,可能包含更難的問題或更嚴格的評估。
? 指標(EM): 完全匹配。這意味著模型的答案必須與正確答案字符串完全一致,才能算作正確答案。這是一個非常嚴格的標準。
? 目的: 評估模型的世界知識的廣度和深度,以及其準確應(yīng)用這些知識的能力。
2. GPQA Diamond(Pass@1):
? 含義: GPQA代表研究生級谷歌證明問答。這個基準測試包含由領(lǐng)域?qū)<遥ㄉ飳W(xué)、物理學(xué)、化學(xué))編寫的難題,僅靠在線搜索很難回答正確(因此稱為“谷歌證明”)?!癉iamond”可能指GPQA的一個特定子集,很可能是更具挑戰(zhàn)性的部分。
? 指標(Pass@1): 這是編程和數(shù)學(xué)中常見的指標,表示模型生成的第一個解決方案正確的百分比。
? 目的: 評估在需要理解復(fù)雜概念而非簡單信息檢索的專家級問題上的深度推理和解決問題的能力。
3. MATH-500(Pass@1):
? 含義: 這指的是MATH數(shù)據(jù)集,包含具有挑戰(zhàn)性的競賽數(shù)學(xué)問題(例如來自AMC 10、AMC 12、AIME級別)?!?00”可能指一個特定子集或版本,可能表示500個問題。
? 指標(Pass@1): 同上,模型生成的第一個解決方案正確的百分比。
? 目的: 特別衡量數(shù)學(xué)推理、符號操作和解決問題的能力。
4. AIME 2024(Pass@1):
? 含義: AIME代表美國數(shù)學(xué)邀請賽,這是美國的一項高中數(shù)學(xué)競賽?!?024”表示這些問題是來自2024年的最新競賽。
? 指標(Pass@1): 模型生成的第一個解決方案正確的百分比。
? 目的: 測試在最新、具有挑戰(zhàn)性的競賽級問題上的高級數(shù)學(xué)解決問題能力,這些問題是模型在訓(xùn)練數(shù)據(jù)中不太可能見過的。
5. LiveCodeBench(Pass@1):
? 含義: 這是一個用于評估代碼生成能力的基準測試?!癓ive”可能表示它使用來自最近編程競賽的問題,或者會頻繁更新,以防止訓(xùn)練數(shù)據(jù)的污染。
? 指標(Pass@1): 模型生成的第一個代碼解決方案通過隱藏測試用例的百分比。
? 目的: 評估模型理解編程問題描述并生成正確、功能代碼的能力。
第二部分:結(jié)果分析(基準:DeepSeek-V3-0324)
我們將分析這些基準測試的表現(xiàn),比較DeepSeek-V3-0324(深藍色條紋柱)與其他模型:DeepSeek-V3(淺藍色)、Qwen-Max(中藍色)、GPT-4.5(深灰色)和Claude-Sonnet-3.7(淺灰色)。(模型理解得很正確)
總體表現(xiàn):
DeepSeek-V3-0324在所有評估的基準測試中表現(xiàn)始終處于或接近頂尖水平。與之前的DeepSeek-V3版本相比,它在所有類別中都有顯著提升。
MMLU-Pro(廣泛知識):
- DeepSeek-V3-0324得分為81.2%。
- 這個成績優(yōu)于DeepSeek-V3(75.9%)、Qwen-Max(76.1%)和Claude-Sonnet-3.7(80.7%)。
- 它略遜于GPT-4.5(86.1%)。
- 解讀: DeepSeek-V3-0324具有非常強大的一般知識,與Claude-Sonnet-3.7競爭激烈,并且超過了Qwen-Max,盡管在這一特定評估中仍然落后于GPT-4.5。
GPQA Diamond(專家推理):
- DeepSeek-V3-0324得分為68.4%。
- 這個成績明顯優(yōu)于DeepSeek-V3(59.1%)和Qwen-Max(60.1%)。
- 它與Claude-Sonnet-3.7(68.0%)非常接近,并且略低于GPT-4.5(71.4%)。
- 解讀:它在困難的專家級問題上表現(xiàn)出強大的推理能力,表現(xiàn)與Claude-Sonnet-3.7基本相當,并且與GPT-4.5競爭激烈。
MATH-500(標準數(shù)學(xué)):
- DeepSeek-V3-0324得分為94.0%。
- 這是所有模型中的最高分,超過了GPT-4.5(90.7%)、DeepSeek-V3(90.2%)、Qwen-Max(82.6%)和Claude-Sonnet-3.7(82.2%)。
- 解讀: DeepSeek-V3-0324在這個標準的具有挑戰(zhàn)性的數(shù)學(xué)基準測試中表現(xiàn)出最先進的性能(在這個組別中),表明其具有出色的數(shù)學(xué)推理能力。
AIME 2024(高級最新數(shù)學(xué)):
- DeepSeek-V3-0324得分為59.4%。
- 這個成績明顯高于所有其他模型:DeepSeek-V3(39.6%)、GPT-4.5(36.7%)、Qwen-Max(26.7%)和Claude-Sonnet-3.7(23.3%)。
- 解讀:這是一個突出的結(jié)果。DeepSeek-V3-0324在非常困難且最新的數(shù)學(xué)問題上表現(xiàn)出色,顯著優(yōu)于強大的競爭對手GPT-4.5和Claude-Sonnet-3.7。這表明它在這一特定任務(wù)上可能具有更優(yōu)越的數(shù)學(xué)訓(xùn)練或架構(gòu)優(yōu)勢。
LiveCodeBench(編程):
- DeepSeek-V3-0324得分為49.2%。
- 這是最高分,領(lǐng)先于GPT-4.5(44.4%)、Claude-Sonnet-3.7(42.2%)、DeepSeek-V3(39.2%)和Qwen-Max(38.7%)。
- 解讀:DeepSeek-V3-0324在這個基準測試中表現(xiàn)出最強的編程能力,表明其在生成正確代碼解決方案方面具有熟練的能力。
總結(jié)結(jié)論:
根據(jù)這個圖表,DeepSeek-V3-0324是一款能力非常強的大型語言模型。它比其前身(DeepSeek-V3)有顯著的進步。在數(shù)學(xué)(MATH-500、AIME 2024)和編程(LiveCodeBench)方面,它取得了最先進的結(jié)果(在比較的模型中),在具有挑戰(zhàn)性的AIME 2024基準測試中尤其領(lǐng)先。盡管在廣泛知識的MMLU-Pro基準測試中略遜于GPT-4.5,但它在一般知識和復(fù)雜推理(GPQA)方面仍然具有很強的競爭力,通常超過或與Claude-Sonnet-3.7和Qwen-Max相當。它的優(yōu)勢在數(shù)學(xué)和編程等技術(shù)領(lǐng)域表現(xiàn)得尤為明顯。(總結(jié)很到位)
grok3
輸出數(shù)據(jù)出現(xiàn)錯亂(張冠李戴),但整體內(nèi)容邏輯結(jié)構(gòu)是可以的。
具體內(nèi)容如下:
回答用戶查詢
用戶提供了一張不同大型語言模型的測評圖表,要求首先解讀各個數(shù)據(jù)集的含義和作用,然后以 DeepSeek-V3-0324 為基準對測評結(jié)果進行分析。以下是完整的回答:
一、數(shù)據(jù)集的含義與作用解讀
該圖表評估了五個大型語言模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7)在五個數(shù)據(jù)集上的性能。以下是對每個數(shù)據(jù)集的含義和作用的解讀:
MMLU-Pro (EM)
含義: 這可能是 Massive Multitask Language Understanding(MMLU)基準測試的一個變體,“Pro” 表示更高級或?qū)I(yè)化的版本?!癊M” 代表 Exact Match(精確匹配),即模型輸出必須與正確答案完全一致才算正確。
作用: 該數(shù)據(jù)集測試模型在多個領(lǐng)域(如科學(xué)、人文、社會科學(xué)等)的通用知識和推理能力,評估其是否能準確回答廣泛的學(xué)術(shù)性問題。
GPOA Diamond (Pass@1)
含義: GPOA Diamond 可能是 General Purpose Question Answering(通用問答)數(shù)據(jù)集的一個子集,“Diamond” 表示高難度或高質(zhì)量的篩選部分。“Pass@1” 表示評估模型第一次嘗試(即 top-1 預(yù)測)的正確性。
作用: 該數(shù)據(jù)集測試模型在首次嘗試中回答復(fù)雜通用問題的能力,側(cè)重于深入理解和推理能力。
MATH-500 (Pass@1)
含義: 該數(shù)據(jù)集包含 500 個數(shù)學(xué)問題,可能涵蓋高中或大學(xué)水平的數(shù)學(xué)內(nèi)容。“Pass@1” 表示評估模型第一次嘗試解題的正確性。
作用: 它評估模型的數(shù)學(xué)推理和問題解決能力,包括計算、定理應(yīng)用和邏輯推導(dǎo)。
AIME 2024 (Pass@1)
含義: AIME 是 American Invitational Mathematics Examination(美國數(shù)學(xué)邀請賽)的縮寫,面向高中生的數(shù)學(xué)競賽,包含具有挑戰(zhàn)性的問題。“2024” 表示該數(shù)據(jù)集來自 2024 年,“Pass@1” 表示評估第一次嘗試的正確性。
作用: 該數(shù)據(jù)集測試模型解決高級數(shù)學(xué)問題的能力,通常需要創(chuàng)造性和分析性思維,超出普通教材范圍。
LiveCodeBench (Pass@1)
含義: 該數(shù)據(jù)集可能聚焦于編程和代碼生成任務(wù),模型需為給定問題生成正確代碼?!癙ass@1” 表示評估第一次提交代碼的正確性。
作用: 它評估模型的編程技能,包括理解問題規(guī)格、編寫功能性代碼以及處理邏輯錯誤的能力。
二、以 DeepSeek-V3-0324 為基準的測評結(jié)果分析
DeepSeek-V3-0324(圖表中以深藍色帶斜線表示)作為基準模型,其性能數(shù)據(jù)如下。我們將逐一分析每個數(shù)據(jù)集,并與其他模型進行比較:
1. MMLU-Pro (EM)
DeepSeek-V3-0324: 81.2%
DeepSeek-V3: 75.9%(比基準低 5.3%)
Qwen-Max: 76.1%(比基準低 5.1%)
GPT-4.5: 86.1%(比基準高 4.9%)
Claude-Sonnet-3.7: 80.7%(比基準低 0.5%)
分析: DeepSeek-V3-0324 在此數(shù)據(jù)集上表現(xiàn)良好,但 GPT-4.5 以 86.1% 領(lǐng)先,顯示其在通用知識和推理方面更強。Claude-Sonnet-3.7 與基準非常接近(僅低 0.5%),而 DeepSeek-V3 和 Qwen-Max 稍遜一籌。
2. GPOA Diamond (Pass@1)
DeepSeek-V3-0324: 59.1%
DeepSeek-V3: 68.4%(比基準高 9.3%)
Qwen-Max: 50.1%(比基準低 9.0%)
(開始數(shù)據(jù)錯亂)
GPT-4.5: 71.4%(比基準高 12.3%)
Claude-Sonnet-3.7: 68.0%(比基準高 8.9%)
分析: DeepSeek-V3-0324 在此數(shù)據(jù)集上的表現(xiàn)較弱(59.1%),被大多數(shù)模型超越。GPT-4.5 以 71.4% 居首,DeepSeek-V3 和 Claude-Sonnet-3.7 表現(xiàn)相近且優(yōu)于基準。Qwen-Max 表現(xiàn)最差,表明其處理復(fù)雜通用問題能力不足。
3. MATH-500 (Pass@1)
DeepSeek-V3-0324: 94.0%
DeepSeek-V3: 90.2%(比基準低 3.8%)
Qwen-Max: 82.6%(比基準低 11.4%)
GPT-4.5: 90.7%(比基準低 3.3%)
Claude-Sonnet-3.7: 82.2%(比基準低 11.8%)
分析: DeepSeek-V3-0324 以 94.0% 的高準確率領(lǐng)先,展現(xiàn)出卓越的數(shù)學(xué)解題能力。GPT-4.5 和 DeepSeek-V3 接近但稍遜一籌,而 Qwen-Max 和 Claude-Sonnet-3.7 表現(xiàn)明顯較差,數(shù)學(xué)推理能力較弱。
4. AIME 2024 (Pass@1)
DeepSeek-V3-0324: 59.4%
DeepSeek-V3: 39.6%(比基準低 19.8%)
Qwen-Max: 26.7%(比基準低 32.7%)
GPT-4.5: 36.7%(比基準低 22.7%)
Claude-Sonnet-3.7: 23.3%(比基準低 36.1%)
分析: DeepSeek-V3-0324 在此高難度數(shù)學(xué)數(shù)據(jù)集上以 59.4% 遙遙領(lǐng)先,顯著優(yōu)于其他模型。DeepSeek-V3 和 GPT-4.5 位列其次,但差距較大。Qwen-Max 和 Claude-Sonnet-3.7 表現(xiàn)最差,顯示其在高級數(shù)學(xué)問題上的局限性。
5. LiveCodeBench (Pass@1)
DeepSeek-V3-0324: 49.2%
DeepSeek-V3: 39.2%(比基準低 10.0%)
Qwen-Max: 44.4%(比基準低 4.8%)
GPT-4.5: 38.7%(比基準低 10.5%)
Claude-Sonnet-3.7: 42.2%(比基準低 7.0%)
分析: DeepSeek-V3-0324 以 49.2% 領(lǐng)先編程任務(wù),盡管準確率不算很高。Qwen-Max 和 Claude-Sonnet-3.7 稍遜一籌,DeepSeek-V3 和 GPT-4.5 表現(xiàn)最差,表明其編程能力較弱。
三、總體分析
DeepSeek-V3-0324 的優(yōu)勢與劣勢
優(yōu)勢:
在數(shù)學(xué)任務(wù)(MATH-500 和 AIME 2024)上表現(xiàn)突出,分別達到 94.0% 和 59.4%,遠超其他模型。
在編程任務(wù)(LiveCodeBench)上以 49.2% 領(lǐng)先,顯示出較強的代碼生成能力。
在 MMLU-Pro 上獲得 81.2%,表現(xiàn)穩(wěn)健但并非最佳。
劣勢:
在 GPOA Diamond 上僅得 59.1%,落后于大多數(shù)模型,表明其在處理復(fù)雜通用問答時存在局限性。
與其他模型的比較
DeepSeek-V3: 除 GPOA Diamond(68.4%)優(yōu)于基準外,其余數(shù)據(jù)集均表現(xiàn)不如 DeepSeek-V3-0324,尤其在 AIME 2024 上差距明顯(低 19.8%)。
Qwen-Max: 在所有數(shù)據(jù)集上均低于 DeepSeek-V3-0324,尤其在 AIME 2024 上表現(xiàn)極差(僅 26.7%),整體性能較弱。
GPT-4.5: 在 MMLU-Pro(86.1%)和 GPOA Diamond(71.4%)上超越基準,但在數(shù)學(xué)和編程任務(wù)上落后,尤其在 AIME 2024 上低 22.7%。
Claude-Sonnet-3.7: 在 MMLU-Pro(80.7%)和 GPOA Diamond(68.0%)上與基準接近或稍優(yōu),但在數(shù)學(xué)任務(wù)(MATH-500 和 AIME 2024)上差距顯著(低 11.8% 和 36.1%)。
總結(jié)
DeepSeek-V3-0324 在數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色,是這些領(lǐng)域的佼佼者,但在通用問答能力(GPOA Diamond)上仍有提升空間。相比其他模型,它在數(shù)學(xué)領(lǐng)域的優(yōu)勢尤為突出,適合需要強大數(shù)學(xué)推理和代碼生成能力的場景。如果您有進一步的問題或需要更深入的分析,請隨時告訴我!
O3mini
基礎(chǔ)內(nèi)容解答質(zhì)量還可以,進行圖表數(shù)據(jù)分析,有較多與事實不符或錯亂情況
下面的回答分為兩部分:
1.先解讀圖表中出現(xiàn)的不同數(shù)據(jù)集(MMLU-Pro、GPOA Diamond、MATH-500、AIME 2024、LiveCodeBench)的含義和作用
2.然后對比這些數(shù)據(jù)集上的結(jié)果,并以 DeepSeek V3-0324 的表現(xiàn)為基準進行分析
注意:數(shù)據(jù)集含義解答,各個模型效果差別不大,篇幅限制不再展示
2. 以 DeepSeek V3-0324 為基準的測評結(jié)果分析
圖中展示了多款大模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5、Claude-Sonnet-3.7)在以上 5 個數(shù)據(jù)集上的表現(xiàn)(一般以“Pass@1”或準確率/百分位數(shù)為指標)。下面根據(jù)圖表大致數(shù)值進行簡要解讀(數(shù)值僅根據(jù)題主提供的可視化柱狀圖近似讀?。?/p>
(A)整體表現(xiàn)概覽
DeepSeek V3-0324相比上一版本DeepSeek V3,在所有數(shù)據(jù)集上都有不同程度的提升。
各模型在不同數(shù)據(jù)集上各有側(cè)重和優(yōu)勢:
- 在MMLU-Pro這類多領(lǐng)域知識評測中,Qwen-Max 表現(xiàn)最好,其次是 DeepSeek V3-0324;GPT-4.5、Claude-Sonnet-3.7 也都在同一水平段。(回答錯誤,這個評測Qwen-Max表現(xiàn)不好的)
- 在數(shù)學(xué)類(MATH-500、AIME 2024)評測中,GPT-4.5 往往具備較強的數(shù)學(xué)推理能力;不過 DeepSeek V3-0324 與之非常接近,甚至在 AIME 2024 上略有領(lǐng)先。(回答錯誤,與圖標事實不符)
- 在LiveCodeBench這類編程測評中,DeepSeek V3-0324 的分數(shù)(約 49.2%)高于 Qwen-Max、GPT-4.5、Claude-Sonnet-3.7,顯示出不錯的代碼生成和一次性通過能力。
(B)以 DeepSeek V3-0324 為基準的具體對比
1.MMLU-Pro
- DeepSeek V3:73.5% →DeepSeek V3-0324:81.2%
- Qwen-Max:86.1%,GPT-4.5:80.3%,Claude-Sonnet-3.7:78.9%(回答錯誤,與圖標事實不符)
對比來看,V3-0324 較上一版本進步顯著,且超過 GPT-4.5、Claude-Sonnet-3.7,雖然略低于 Qwen-Max,但整體已在高水準區(qū)間。
后面還有很多錯誤就不一一標注,大家可以慢慢看
2.GPOA Diamond
- DeepSeek V3:68.4% →DeepSeek V3-0324:70.1%
- Qwen-Max:75.3%,GPT-4.5:68.1%,Claude-Sonnet-3.7:70.9%
該數(shù)據(jù)集上,V3-0324 相比 V3 提升相對有限,但依然超過了 GPT-4.5。與 Qwen-Max、Claude-Sonnet-3.7 則還在同一梯隊,分數(shù)相當接近。
3.MATH-500
- DeepSeek V3:88.0% →DeepSeek V3-0324:91.0%
- GPT-4.5:92.0%,Qwen-Max:90.7%,Claude-Sonnet-3.7:90.2%
在純數(shù)學(xué)推理題上,GPT-4.5 以微弱優(yōu)勢領(lǐng)先,但 V3-0324 也已達 91.0%,非常接近 GPT-4.5;對比其他模型,也處于相對領(lǐng)先地位。
4.AIME 2024
- DeepSeek V3:50.9% →DeepSeek V3-0324:52.4%
- Qwen-Max:49.2%,GPT-4.5:48.2%,Claude-Sonnet-3.7:49.7%
這一競賽級難度更高的數(shù)學(xué)評測中,V3-0324 甚至超越了 Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7,顯示了在高難度數(shù)學(xué)推理和創(chuàng)造性解題上的增強。
5.LiveCodeBench
- DeepSeek V3:44.2% →DeepSeek V3-0324:49.2%
- Qwen-Max:44.4%,GPT-4.5:42.0%,Claude-Sonnet-3.7:41.2%
在一次性代碼生成(Pass@1)上,V3-0324 同樣取得了領(lǐng)先。對比上一版本有明顯提升,也高于其他主流模型,說明其在編程任務(wù)上的準確性有所加強。
3. 小結(jié)
數(shù)據(jù)集意義:
MMLU-Pro 測試多學(xué)科專業(yè)知識;GPOA Diamond 可能更偏開放式或高難度語言理解;MATH-500、AIME 2024 都是高難度數(shù)學(xué)推理和競賽級題目;LiveCodeBench 則是編程能力的測試。
DeepSeek V3-0324 的表現(xiàn)亮點:
- 相比 DeepSeek V3,全方位都有所提升。
- 在多領(lǐng)域綜合知識(MMLU-Pro)和編程(LiveCodeBench)方面,成績非常突出,部分項目甚至超越 GPT-4.5 和 Claude-Sonnet-3.7。
- 在高階數(shù)學(xué)(AIME 2024)中,也體現(xiàn)出強勁的競賽級推理能力。
與其他模型對比:
- Qwen-Max 在 MMLU-Pro 這類多領(lǐng)域知識上依然保持領(lǐng)先,GPT-4.5 在 MATH-500 等數(shù)學(xué)題中略有優(yōu)勢,但 DeepSeek V3-0324 與之差距較小。
- 在 AIME 2024、LiveCodeBench 等更專精的場景中,DeepSeek V3-0324 取得了更高的分數(shù)。
總的來說,這份評測圖表顯示 DeepSeek V3-0324 在多項任務(wù)上已經(jīng)具備了與主流大模型分庭抗禮的能力,尤其在專業(yè)知識覆蓋、競賽級數(shù)學(xué)推理和代碼生成方面有了進一步提升。
其他模型解讀結(jié)果較差,就不一一展示
結(jié)論
從評測結(jié)果和官網(wǎng)發(fā)布內(nèi)容綜合可知,原生多模態(tài)模型在理解數(shù)據(jù)文字和結(jié)構(gòu)信息等方面有著明顯的優(yōu)勢,應(yīng)該也是2025年模型發(fā)展的趨勢。上面圖表對外掛視覺模型很多時候,是無法提取圖片的數(shù)字信息,以及把數(shù)據(jù)與柱狀圖進行正確匹配的。
本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!