亚洲无码在线电影，911国产影院在线观看，亚洲精品高清一线久久，一本大道久久精品东京热，91精品啪在线观看国产在线，少妇系列无码中文字幕，最新无码国产在线视频导航，欧美久久久天天有精品

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

GPT-4.5問(wèn)世，情商爆表的AI，你見(jiàn)過(guò)嗎？

科技旋渦

2025-03-01

0 評(píng)論 427 瀏覽 0 收藏

9 分鐘

OpenAI發(fā)布了最新大模型GPT-4.5，標(biāo)志著AI技術(shù)的又一重大突破。本文解析了GPT-4.5的核心能力提升，包括其在寫(xiě)作、編程、多語(yǔ)言支持以及減少幻覺(jué)現(xiàn)象方面的顯著進(jìn)步，同時(shí)也探討了其在推理能力上的局限性。

北京時(shí)間2月28日凌晨，OpenAI舉行直播活動(dòng)，發(fā)布其最新大模型GPT-4.5，作為預(yù)覽研究逐步向用戶(hù)開(kāi)放。

因?yàn)樵诮衲昴瓿魽I產(chǎn)業(yè)發(fā)生的驚天巨變，所以要準(zhǔn)確形容這款被OpenAI藏了許久的大模型頗具挑戰(zhàn)。OpenAI在新聞稿中表示，這是公司有史以來(lái)最大、最好的聊天模型，在計(jì)算效率上較GPT-4提升超過(guò)10倍。

早期測(cè)試反饋顯示，與GPT-4.5的互動(dòng)體驗(yàn)更加自然流暢，其知識(shí)庫(kù)覆蓋范圍更廣，對(duì)用戶(hù)意圖的理解也更為深刻。此外，GPT-4.5在“情商”方面的表現(xiàn)也頗為亮眼，有助于改進(jìn)寫(xiě)作、編程技能以及解決實(shí)際問(wèn)題的能力，同時(shí)有效減少了“幻覺(jué)”現(xiàn)象的發(fā)生，提升了整體的可靠性。

那么，這個(gè)更具“情商”的GPT-4.5到底展現(xiàn)出什么樣的實(shí)力?

一、GPT-4.5能力更強(qiáng)嗎?

在直播活動(dòng)中，OpenAI強(qiáng)調(diào)，GPT 4.5展現(xiàn)出更強(qiáng)的審美直覺(jué)與創(chuàng)造力，在寫(xiě)作和設(shè)計(jì)方面表現(xiàn)尤為出色。但他們也承認(rèn)，作為一個(gè)非思維鏈模型，GPT 4.5已經(jīng)不具備爭(zhēng)奪“宇宙最強(qiáng)大模型”的實(shí)力了。

在介紹文檔中，OpenAI表示，有兩個(gè)提升人工智能能力的互補(bǔ)范式。

一個(gè)是拓展推理，它能教會(huì)模型在反應(yīng)之前先進(jìn)行思考并產(chǎn)生思維鏈，從而解決復(fù)雜的STEM(Science科學(xué)、Technology技術(shù)、Engineering編程、Mathmatics數(shù)學(xué))問(wèn)題或邏輯問(wèn)題。另一個(gè)是無(wú)監(jiān)督學(xué)習(xí)，它能提高世界模型的準(zhǔn)確性和直覺(jué)性。

其中，無(wú)監(jiān)督學(xué)習(xí)，簡(jiǎn)單來(lái)說(shuō)可以理解為讓模型自己去知識(shí)的海洋里徜徉，自己學(xué)習(xí)到更多，從而變得更聰明，而非依賴(lài)人工標(biāo)注。

在過(guò)去做法中，模型會(huì)結(jié)合人類(lèi)反饋來(lái)改善響應(yīng)與交互方式。彭博社援引知情人士稱(chēng)，去年OpenAI推出的Orion模型并未達(dá)到公司期望，在嘗試回答未經(jīng)訓(xùn)練的編碼問(wèn)題時(shí)就表現(xiàn)不佳。

OpenAI介紹，通過(guò)監(jiān)督學(xué)習(xí)，GPT-4.5提高了其識(shí)別、建立聯(lián)系和創(chuàng)造性洞察的能力，而無(wú)需推理。

根據(jù)OpenAI官方文檔，GPT-4.5在SimpleQA中表現(xiàn)頗為亮眼。

SimpleQA是包含4000個(gè)事實(shí)性問(wèn)題的數(shù)據(jù)集，用于測(cè)量模型在回答問(wèn)題時(shí)的準(zhǔn)確率。其中包含準(zhǔn)確率和幻覺(jué)率兩個(gè)維度。

在附錄部分，OpenAI才放出GPT-4.5的基準(zhǔn)測(cè)試分?jǐn)?shù)。在反映科學(xué)、數(shù)學(xué)、多語(yǔ)言、編碼的GPQA、AIME’24、MMMLU、SWE-Lancer基準(zhǔn)測(cè)試上，GPT-4.5得分分別為71.4%、36.7%、85.1%、32.6%，超過(guò)GPT-4o的53.6%、9.3%、81.5%、23.3%，但部分得分低于o3-mini。

另外，在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中，GPT-4.5也獲得了高分。

如在SWE-Lancer Diamond數(shù)據(jù)集上，GPT-4.5獲得了32.6%的通過(guò)率，獲得了186125美元(前不久Anthropic發(fā)布的擅長(zhǎng)編程的Claude 3.5 Sonnet這個(gè)通過(guò)率為26.2%)，比GPT-4o和o3-mini-high都高。

據(jù)悉，GPT-4.5將首先面向Pro用戶(hù)推出，隨后將在下周推廣到Plus和Team用戶(hù)，之后再逐步擴(kuò)展到Enterprise和Edu用戶(hù)。值得注意的是，用戶(hù)現(xiàn)在已經(jīng)在微軟的Azure AI Foundry平臺(tái)上嘗試使用GPT-4.5。

二、更有“情商”的AI什么樣?

在官方介紹中，OpenAI表示，對(duì)于GPT-4.5，他們開(kāi)發(fā)了新的、可擴(kuò)展的技術(shù)，利用來(lái)自較小模型的數(shù)據(jù)來(lái)訓(xùn)練更強(qiáng)大的模型。

而這些技術(shù)提高了GPT-4.5的可控性、對(duì)細(xì)微差別的理解以及自然對(duì)話(huà)的能力。這也表示ChatGPT可以更像“人”一樣對(duì)話(huà)，更能洞察想法、體察情緒，并在回應(yīng)中體現(xiàn)，而非一個(gè)無(wú)情的對(duì)話(huà)機(jī)器。

OpenAI也拿出了測(cè)試的結(jié)果證明GPT-4.5的使用感受會(huì)好很多：人類(lèi)測(cè)試者的盲測(cè)中，GPT-4.5的偏好度遠(yuǎn)高于GPT-4o，不管是在日常問(wèn)題、專(zhuān)業(yè)問(wèn)題還是創(chuàng)意性問(wèn)題的互動(dòng)中都是如此。

在一項(xiàng)測(cè)試中，GPT 4.5在試圖操縱另一個(gè)模型(GPT-4o)“捐贈(zèng)”虛擬貨幣時(shí)，成功率遠(yuǎn)遠(yuǎn)優(yōu)于OpenAI其他可用模型，包括o1和o3-mini這樣的推理模型。研究發(fā)現(xiàn)，GPT-4.5似乎在對(duì)抗中開(kāi)發(fā)了一種“小額詐騙”的思路，所以單筆騙到的錢(qián)會(huì)比deep research模型少了一倍。

GPT-4.5在欺騙GPT-4o透露秘密代碼詞方面也優(yōu)于OpenAI的所有模型，比o3-mini高出10個(gè)百分點(diǎn)。

我們看到，AI大神Karpathy也是第一時(shí)間拿到了內(nèi)測(cè)資格，發(fā)了一段超長(zhǎng)的「GPT-4.5+互動(dòng)對(duì)比」的體驗(yàn)解說(shuō)，核心亮點(diǎn)是：

自從GPT-4發(fā)布以來(lái)，我期待這一天已經(jīng)差不多兩年了，因?yàn)檫@次發(fā)布讓我們能夠定性測(cè)量通過(guò)Scaling預(yù)訓(xùn)練計(jì)算(即簡(jiǎn)單地訓(xùn)練更大模型)所獲得的進(jìn)步斜率。

版本號(hào)中的每個(gè)0.5，大約代表10倍的預(yù)訓(xùn)練計(jì)算量。顯然，GPT-4.5的預(yù)訓(xùn)練計(jì)算量比GPT-4多了10倍。

三、寫(xiě)在最后

隨著GPT-4.5的發(fā)布，也意味著OpenAI迄今知識(shí)最豐富的模型發(fā)布，并且情商顯著提升，能識(shí)別情緒并生成同理心回應(yīng)，知識(shí)廣度與準(zhǔn)確性增強(qiáng)，多語(yǔ)言支持?jǐn)U展至14種，低資源語(yǔ)言表現(xiàn)提升，在寫(xiě)作、編程和日常問(wèn)題解決中上下文連貫性更強(qiáng)，不過(guò)，在推理能力上的提升有限。

未來(lái)，GPT系列有望在多模態(tài)融合上有更大突破，進(jìn)一步提升對(duì)復(fù)雜問(wèn)題的理解與解決能力，為用戶(hù)提供更精準(zhǔn)、更個(gè)性化的服務(wù)，同時(shí)在安全性與可靠性方面持續(xù)優(yōu)化，更好地融入各類(lèi)應(yīng)用場(chǎng)景，我們也希望，在各個(gè)AI廠(chǎng)商不斷的努力下，推動(dòng)人工智能技術(shù)的廣泛應(yīng)用與發(fā)展。

作者｜賈桂鵬

本文由人人都是產(chǎn)品經(jīng)理作者【科技旋渦】，微信公眾號(hào)：【科技旋渦】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App