千呼萬喚始出來的 GPT 4.5,主打的只是一個“大”

0 評論 1752 瀏覽 1 收藏 15 分鐘

GPT-4.5被定位為OpenAI迄今最大、知識最豐富的模型,但在多個基準(zhǔn)測試中,它已不再是性能最強(qiáng)的選手。本文將深入分析GPT-4.5的特點,包括其情商的提升、知識廣度與準(zhǔn)確性的增強(qiáng),以及多場景實用性的優(yōu)化,并探討它在DeepSeek等競爭對手崛起后的戰(zhàn)略意義。

“GPT系列不是我們前沿的模型。”

一個月前你還很難想象OpenAI發(fā)布GPT的下一個大版本更新時,會這樣說自己。

但當(dāng)2月27日OpenAI突然用一個直播發(fā)布了GPT4.5的時候,一切都已經(jīng)發(fā)生變化。

GPT的定位不再是OpenAI用來震撼外界的模型,而是一個逐漸退到舞臺后方的“底座”;

它的發(fā)布也不再是OpenAI引導(dǎo)行業(yè)敘事的大動作,而更多帶上了防御的感覺;

這是GPT目前“最大”的一款,也是它在舞臺中心的最后一舞。

OpenAI最初文檔里的表述,后已刪除。圖源:推特GPT4.5的亮點簡單總結(jié),在于“更大,更暖”——OpenAI迄今最大、知識最豐富的模型。

根據(jù)OpenAI的介紹,GPT-4.5在多個方面超過了GPT-4o及其他許多AI模型。例如,在OpenAI的SimpleQA基準(zhǔn)測試(該測試考察 AI 在處理簡單、事實性問題時的準(zhǔn)確度)中,GPT-4.5的表現(xiàn)優(yōu)于GPT-4o和OpenAI的推理模型o1、o3-mini。

在測試編程能力的SWE-Bench Verified基準(zhǔn)測試上,它與GPT-4o和o3-mini表現(xiàn)相當(dāng),但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在AI生成完整軟件功能的能力上,它在SWE-Lancer上的表現(xiàn)超過了GPT-4o和o3-mini。

但與以往只會刷新榜單不同,這次OpenAI甚至在發(fā)布時就展示了自己在榜單中的差距——在一些學(xué)術(shù)基準(zhǔn)測試比如AIME和 GPQA上,GPT 4.5 在數(shù)學(xué)和科學(xué)相關(guān)問題上處于領(lǐng)先水平,但在其他多個維度的評測上,不及DeepSeek和Anthropic的模型。當(dāng)然,這么做還是因為,它自身開發(fā)的新一代推                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        定位不再是最強(qiáng)模型?;鶞?zhǔn)測試也就不再是GPT4.5想要對外呈現(xiàn)的重點。

根據(jù)OpenAI的直播發(fā)布,它的亮點在其他地方,總結(jié)起來如下:

更暖,更少幻覺

GPT-4.5最引人注目的特性是“情商”的顯著提升。

通過深度學(xué)習(xí)海量人類對話數(shù)據(jù),它不僅能識別文本中的情緒(如憤怒、焦慮),還能解析情感背后的潛在需求,生成更具同理心的回應(yīng)。

例如,當(dāng)用戶抱怨“朋友總是爽約”時,GPT-4.5不再機(jī)械地輸出建議,而是優(yōu)先提供情感支持,再引導(dǎo)理性解決方案,甚至通過鼓勵性語言幫助用戶調(diào)整心態(tài)。這種能力源于對語境和情感細(xì)微差別的深度解構(gòu),而非簡單的關(guān)鍵詞匹配。

知識廣度與準(zhǔn)確性的提升

通過無監(jiān)督學(xué)習(xí)的規(guī)模化擴(kuò)展(據(jù)OpenAI研究員稱,它的預(yù)訓(xùn)練算力較GPT-4提升10倍,但這一點后來被官方從文檔中去掉了),GPT-4.5的世界知識覆蓋深度顯著增強(qiáng)。

例如,在回答“海水為何是咸的”這類問題時,它能提供結(jié)構(gòu)清晰、通俗易懂的解釋,并主動補(bǔ)充科學(xué)不確定性,將“幻覺率”降至37.1%,遠(yuǎn)低于前代模型。

這種進(jìn)步不僅體現(xiàn)在知識量上,更在于對用戶意圖的精準(zhǔn)捕捉——例如,從“我需要減肥”中識別出隱含的健康管理需求,而非單純推薦食譜。

多場景實用性的優(yōu)化

GPT-4.5在寫作、編程和日常問題解決中展現(xiàn)出更強(qiáng)的上下文連貫性。它可輔助生成創(chuàng)意文案、修復(fù)代碼漏洞,甚至通過聯(lián)網(wǎng)檢索實時信息。

盡管在數(shù)學(xué)和編程等深度推理任務(wù)中提升有限(代碼能力僅提升7%-10%),但其在依賴世界知識和創(chuàng)造力的領(lǐng)域(如設(shè)計、教育咨詢)表現(xiàn)卓越。此外,多語言支持?jǐn)U展至14種,低資源語言(如斯瓦希里語)的表現(xiàn)顯著提升,進(jìn)一步打破語言壁壘。

而在訓(xùn)練方面,OpenAI也強(qiáng)調(diào)了它訓(xùn)練方法的高效率和更大規(guī)模。他們使用了低精度訓(xùn)練,以及提升了跨數(shù)據(jù)中心的訓(xùn)練資源使用效率。

以上這些種種特點都難免讓人想到DeepSeek。

作為一個強(qiáng)調(diào)邏輯推理能力的模型,DeepSeek R1卻在文字表達(dá)上讓人驚喜。而作為一個“知識型”模型,GPT4.5開始強(qiáng)調(diào)它的情感能力;

在訓(xùn)練上,GPT4.5“激進(jìn)地”使用了低精度訓(xùn)練,而這幾乎就是deepseek最初公布V3時引發(fā)外界震動的絕活之一;

OpenAI為了讓GPT4.5“變大”,在預(yù)訓(xùn)練階段使用了跨多個數(shù)據(jù)中心的計算設(shè)施來實現(xiàn)擴(kuò)展,這也讓人想到DeepSeek“起家”的技術(shù),關(guān)于它自建的螢火集群的一系列跨數(shù)據(jù)中心的研究論文。

OpenAI稱GPT-4.5會成為未來推理模型的基礎(chǔ)模型,這也是V3與R1的關(guān)系。

在DeepSeek開源之前,OpenAI的口徑還是GPT系列和o系列是兩個不同系列的模型,而DeepSeek的詳細(xì)論文解釋了基座模型與推理模型的關(guān)系,并自然把競爭引向了OpenAI和Anthropic最近兩個模型所體現(xiàn)出的模型融合的路線上。

API非常貴當(dāng)我們停下來看看,這一切的變化還是很神奇的:

一個月之前這一切都不會這樣發(fā)生,現(xiàn)在每一個AI領(lǐng)域的重要動作,都多少籠罩在DeepSeek“陰影”之下。

甚至所有跡象都在顯示這是一個OpenAI計劃外發(fā)布的模型,它不能太強(qiáng),超過它主打的o3,但它又必須發(fā)布,因為DeepSeek帶來的這一波開源沖擊,人人都知道了GPT系列和o系列的緊密關(guān)系,它需要證明它在基礎(chǔ)模型上的進(jìn)展,而不能只是用o系列來震撼大家了。

OpenAI這次發(fā)布繼續(xù)“做實”了很多事情,比如曾經(jīng)依賴數(shù)據(jù)和計算能力的擴(kuò)展所帶來的GPT系列的能力增強(qiáng),正式結(jié)束了;它帶來的o系列的計算時間擴(kuò)展定律,正式成為接下來的行業(yè)主題;而GPT系列的意義從最前端的直接參與競爭的角色,變成比拼推理模型時的重要支撐。

GPT正式淡出了舞臺中央,只屬于它的時代結(jié)束了,接下來正式進(jìn)入群雄競爭的推理時代。

作者|王兆洋

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!