120秒免费视频久久，久久综合五月丁香六月丁香，开心激情在线，在线观看av 网站，亚洲中文字幕在线一区播放，热无码热国产热综合在线观看，无码丰满的人妻，精品一级片内射视频在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

行業(yè)資深人士：GPT-4.5是一個(gè)奇怪的模型

AI新智能

2025-03-04

0 評(píng)論 424 瀏覽 0 收藏

12 分鐘

隨著GPT-4.5的發(fā)布，業(yè)界對(duì)其性能和價(jià)值的討論愈發(fā)熱烈。然而，許多行業(yè)專家對(duì)這一新模型的表現(xiàn)提出了質(zhì)疑，認(rèn)為其在實(shí)際應(yīng)用中的效果并未達(dá)到預(yù)期。本文將深入探討GPT-4.5的特點(diǎn)，供大家參考。

OpenAI最新模型GPT-4.5在性能提升有限的情況下，成本卻大幅增加，引發(fā)了業(yè)界對(duì)其性價(jià)比的質(zhì)疑。

OpenAI宣布推出了GPT-4.5，公司首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）此前曾表示，這將是最后一個(gè)非“思維鏈”（Chain of Thought，CoT）模型。

該公司稱，新模型“并非前沿模型”，但仍然是其最大的大型語(yǔ)言模型（LLM），并且在計(jì)算效率上有顯著提升。

阿爾特曼表示，盡管GPT-4.5的推理方式與OpenAI其他新推出的o1或o3-mini模型不同，但這款新模型仍然更具人性化和深思熟慮的特點(diǎn)。許多行業(yè)觀察人士提前接觸了這款新模型，他們認(rèn)為GPT-4.5是OpenAI一個(gè)有趣的舉措，這也讓他們調(diào)整了對(duì)該模型應(yīng)達(dá)到的預(yù)期。

沃頓商學(xué)院教授兼人工智能評(píng)論員埃森·莫利克（Ethan Mollick）在社交媒體上表示，GPT-4.5是一個(gè)“非常奇特且有趣的模型”，他指出，盡管它在寫作方面表現(xiàn)出色，但在處理復(fù)雜項(xiàng)目時(shí)可能會(huì)“出人意料地偷懶”。

OpenAI聯(lián)合創(chuàng)始人、前特斯拉人工智能負(fù)責(zé)人安德烈·卡帕西（Andrej Karpathy）表示，GPT-4.5讓他回想起GPT-4推出時(shí)他看到的模型潛力。

在X平臺(tái)上，卡帕西寫道，使用GPT-4.5時(shí)，“一切都有些改進(jìn)，這很棒，但這種改進(jìn)并非是容易指出的具體方面。”然而，卡帕西警告說(shuō)，人們不應(yīng)期望該模型帶來(lái)革命性的影響，因?yàn)樗霸谛枰评砟芰Φ年P(guān)鍵領(lǐng)域（如數(shù)學(xué)、編程等）并沒(méi)有推動(dòng)模型能力的提升”。

1

行業(yè)思路詳解以下是卡帕西在X平臺(tái)上發(fā)布的長(zhǎng)篇帖子中對(duì)GPT-4.5的詳細(xì)評(píng)價(jià)：“今天，OpenAI發(fā)布了GPT-4.5。我已經(jīng)期待了大約兩年，自從GPT-4推出以來(lái)，因?yàn)檫@次發(fā)布提供了一個(gè)衡量通過(guò)擴(kuò)展預(yù)訓(xùn)練計(jì)算（即簡(jiǎn)單地訓(xùn)練一個(gè)更大模型）所能獲得的改進(jìn)斜率的定性指標(biāo)。每個(gè)0.5的版本升級(jí)大約對(duì)應(yīng)10倍的預(yù)訓(xùn)練計(jì)算量。

回想一下，GPT-1幾乎無(wú)法生成連貫的文本。GPT-2是一個(gè)令人困惑的玩具。GPT-2.5被‘跳過(guò)’，直接升級(jí)為更有趣的GPT-3。GPT-3.5達(dá)到了一個(gè)臨界點(diǎn)，足以作為產(chǎn)品推出，并引發(fā)了OpenAI的‘ChatGPT時(shí)刻’。

而GPT-4雖然也有所改進(jìn)，但我必須說(shuō)，這種改進(jìn)非常微妙。我記得參加了一個(gè)黑客松，試圖找到GPT-4明顯優(yōu)于3.5的具體提示。這些例子確實(shí)存在，但清晰且明確的‘絕對(duì)優(yōu)勢(shì)’案例卻很難找到。一切都有些改進(jìn)，但這種改進(jìn)是彌散的。詞匯選擇更具創(chuàng)意，對(duì)提示中細(xì)微差別的理解有所提升，類比更有意義，模型也稍微有趣了一點(diǎn)，對(duì)罕見(jiàn)領(lǐng)域的知識(shí)和理解也有所改善，幻覺(jué)現(xiàn)象也少了一些，整體感覺(jué)更好了。

這就像水漲船高的效應(yīng)，一切都在不知不覺(jué)中提升了大約20%。因此，我?guī)е@種預(yù)期去測(cè)試GPT-4.5，我在幾天前獲得了訪問(wèn)權(quán)限，它的預(yù)訓(xùn)練計(jì)算量比GPT-4高出10倍。而我感覺(jué)，我又回到了兩年前的那個(gè)黑客松。一切都有些改進(jìn)，這很棒，但這些改進(jìn)并非是顯而易見(jiàn)的。

盡管如此，這仍然是一個(gè)非常有趣且令人興奮的定性指標(biāo)，它表明僅僅通過(guò)訓(xùn)練一個(gè)更大的模型，就能獲得某種‘免費(fèi)’的能力提升。

請(qǐng)注意，GPT-4.5僅通過(guò)預(yù)訓(xùn)練、監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）進(jìn)行訓(xùn)練，因此它還不是一款推理模型。因此，這次模型發(fā)布并沒(méi)有在需要推理能力的關(guān)鍵領(lǐng)域（如數(shù)學(xué)、編程等）推動(dòng)模型能力的進(jìn)步。

在這些情況下，通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練并獲得思考能力至關(guān)重要，即使它是在較舊的基礎(chǔ)模型上實(shí)現(xiàn)的（例如類似GPT-4的能力）。目前，最先進(jìn)的模型仍然是完整的o1。想必OpenAI接下來(lái)會(huì)嘗試在GPT-4.5的基礎(chǔ)上進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，以使其具備思考能力，并推動(dòng)這些領(lǐng)域的能力提升。

然而，我們確實(shí)期望在非推理密集型任務(wù)中看到改進(jìn)，我認(rèn)為這些任務(wù)更多與情商（EQ）相關(guān)，例如受到世界知識(shí)、創(chuàng)造力、類比能力、一般理解能力、幽默感等的限制。因此，這些是我最感興趣的能力測(cè)試領(lǐng)域。因此，我想在這里的X平臺(tái)上通過(guò)一個(gè)互動(dòng)的‘語(yǔ)言模型競(jìng)技場(chǎng)精簡(jiǎn)版’，結(jié)合圖片和投票，以帖子的形式展示5個(gè)有趣，引人發(fā)笑的提示，來(lái)測(cè)試這些能力。

遺憾的是，X平臺(tái)不允許你在單個(gè)帖子中同時(shí)包含圖片和投票，因此我不得不交替發(fā)布帖子：一個(gè)帖子展示圖片（提示以及來(lái)自4和4.5的兩個(gè)回答），另一個(gè)帖子則是投票，人們可以投票選擇哪個(gè)回答更好。8小時(shí)后，我會(huì)揭曉哪個(gè)回答來(lái)自哪個(gè)模型。讓我們看看會(huì)發(fā)生什么：）”

2

Box CEO對(duì)GPT-4.5的看法Box公司首席執(zhí)行官阿隆·萊維（Aaron Levie）也在X平臺(tái)上分享了他對(duì)GPT-4.5的看法。

他認(rèn)為這款模型在企業(yè)級(jí)應(yīng)用中具有巨大潛力，并表示Box公司已經(jīng)在使用GPT-4.5從復(fù)雜的企業(yè)內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)?！叭斯ぶ悄艿耐黄撇粩嘤楷F(xiàn)。OpenAI剛剛宣布推出GPT-4.5，我們將在今天晚些時(shí)候通過(guò)Box AI Studio將其提供給Box客戶。我們已經(jīng)在Box AI的早期訪問(wèn)模式下測(cè)試了GPT-4.5，用于高級(jí)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)的用例，并取得了出色的結(jié)果。

通過(guò)Box AI的企業(yè)級(jí)評(píng)估，我們針對(duì)多種不同場(chǎng)景對(duì)模型進(jìn)行測(cè)試，包括問(wèn)答準(zhǔn)確性、推理能力等。特別是為了探索GPT-4.5的能力，我們專注于一個(gè)對(duì)企業(yè)影響潛力巨大的關(guān)鍵領(lǐng)域：從復(fù)雜的企業(yè)內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)，即元數(shù)據(jù)提取。

在Box，我們使用多個(gè)企業(yè)級(jí)數(shù)據(jù)集嚴(yán)格評(píng)估數(shù)據(jù)提取模型。其中一個(gè)關(guān)鍵數(shù)據(jù)集是CUAD，它包含超過(guò)510份商業(yè)法律合同。在這個(gè)數(shù)據(jù)集中，Box識(shí)別出可以從非結(jié)構(gòu)化內(nèi)容中提取的17,000個(gè)字段，并基于這些字段的單次提取對(duì)模型進(jìn)行評(píng)估（這是我們最嚴(yán)格的測(cè)試，模型只有一次機(jī)會(huì)在單次運(yùn)行中提取所有元數(shù)據(jù)，而不是多次嘗試）。

在我們的測(cè)試中，與GPT-4o相比，GPT-4.5準(zhǔn)確提取的字段多出了19個(gè)百分點(diǎn)，這突顯了其處理復(fù)雜合同數(shù)據(jù)的更強(qiáng)能力。接下來(lái)，為了確保GPT-4.5能夠應(yīng)對(duì)現(xiàn)實(shí)世界中企業(yè)內(nèi)容的需求，我們用更具挑戰(zhàn)性的文件集對(duì)其性能進(jìn)行了評(píng)估，即Box自己的挑戰(zhàn)集。我們選擇了一部分復(fù)雜的法律合同——那些包含多模態(tài)內(nèi)容、高密度信息且長(zhǎng)度超過(guò)200頁(yè)的合同，來(lái)代表我們客戶面臨的最困難場(chǎng)景。

在這個(gè)挑戰(zhàn)集中，GPT-4.5在提取關(guān)鍵字段的準(zhǔn)確性上也始終優(yōu)于GPT-4o，證明了其處理復(fù)雜且微妙的法律文件的卓越能力?？傮w而言，我們?cè)趶?fù)雜企業(yè)數(shù)據(jù)方面看到了GPT-4.5的出色表現(xiàn)，這將為企業(yè)解鎖更多用例?！?/p>

3

價(jià)格問(wèn)題及其重要性盡管早期用戶發(fā)現(xiàn)GPT-4.5是可以使用的盡管它有點(diǎn)“懶惰”，但他們對(duì)其發(fā)布提出了質(zhì)疑。例如，著名的OpenAI批評(píng)者加里·馬庫(kù)斯（Gary Marcus）在Bluesky上稱GPT-4.5為“毫無(wú)新意的產(chǎn)品”（“nothingburger”）。

Hugging Face首席執(zhí)行官克萊門特·德朗格（Clément Delangue）評(píng)論稱，GPT-4.5的閉源特性使其顯得“平平無(wú)奇”（“meh”）。然而，許多人指出，GPT-4.5的表現(xiàn)并不是問(wèn)題所在。

相反，人們質(zhì)疑的是，OpenAI為何會(huì)發(fā)布一個(gè)使用成本如此之高、幾乎令人望而卻步，卻又不如其其他模型強(qiáng)大的模型。

一位用戶在X平臺(tái)上評(píng)論道：“所以你是說(shuō)GPT-4.5的價(jià)值超過(guò)了o1，但它的基準(zhǔn)測(cè)試表現(xiàn)卻不如同等級(jí)別的模型……這讓人難以信服?！逼渌鸛用戶推測(cè)，高昂的token成本可能是為了阻止DeepSeek等競(jìng)爭(zhēng)對(duì)手“提取”4.5模型的精華。DeepSeek在2024年1月成為OpenAI的有力競(jìng)爭(zhēng)對(duì)手，行業(yè)領(lǐng)導(dǎo)者發(fā)現(xiàn)DeepSeek-R1的推理能力與OpenAI的模型相當(dāng)，但更具性價(jià)比。（Venture Beat）

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】，微信公眾號(hào)：【AI新智能】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App