行業(yè)資深人士:GPT-4.5是一個(gè)奇怪的模型
隨著GPT-4.5的發(fā)布,業(yè)界對(duì)其性能和價(jià)值的討論愈發(fā)熱烈。然而,許多行業(yè)專家對(duì)這一新模型的表現(xiàn)提出了質(zhì)疑,認(rèn)為其在實(shí)際應(yīng)用中的效果并未達(dá)到預(yù)期。本文將深入探討GPT-4.5的特點(diǎn),供大家參考。
OpenAI最新模型GPT-4.5在性能提升有限的情況下,成本卻大幅增加,引發(fā)了業(yè)界對(duì)其性價(jià)比的質(zhì)疑。
OpenAI宣布推出了GPT-4.5,公司首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)此前曾表示,這將是最后一個(gè)非“思維鏈”(Chain of Thought,CoT)模型。
該公司稱,新模型“并非前沿模型”,但仍然是其最大的大型語(yǔ)言模型(LLM),并且在計(jì)算效率上有顯著提升。
阿爾特曼表示,盡管GPT-4.5的推理方式與OpenAI其他新推出的o1或o3-mini模型不同,但這款新模型仍然更具人性化和深思熟慮的特點(diǎn)。許多行業(yè)觀察人士提前接觸了這款新模型,他們認(rèn)為GPT-4.5是OpenAI一個(gè)有趣的舉措,這也讓他們調(diào)整了對(duì)該模型應(yīng)達(dá)到的預(yù)期。
沃頓商學(xué)院教授兼人工智能評(píng)論員埃森·莫利克(Ethan Mollick)在社交媒體上表示,GPT-4.5是一個(gè)“非常奇特且有趣的模型”,他指出,盡管它在寫作方面表現(xiàn)出色,但在處理復(fù)雜項(xiàng)目時(shí)可能會(huì)“出人意料地偷懶”。
OpenAI聯(lián)合創(chuàng)始人、前特斯拉人工智能負(fù)責(zé)人安德烈·卡帕西(Andrej Karpathy)表示,GPT-4.5讓他回想起GPT-4推出時(shí)他看到的模型潛力。
在X平臺(tái)上,卡帕西寫道,使用GPT-4.5時(shí),“一切都有些改進(jìn),這很棒,但這種改進(jìn)并非是容易指出的具體方面。”然而,卡帕西警告說(shuō),人們不應(yīng)期望該模型帶來(lái)革命性的影響,因?yàn)樗霸谛枰评砟芰Φ年P(guān)鍵領(lǐng)域(如數(shù)學(xué)、編程等)并沒(méi)有推動(dòng)模型能力的提升”。
1
行業(yè)思路詳解以下是卡帕西在X平臺(tái)上發(fā)布的長(zhǎng)篇帖子中對(duì)GPT-4.5的詳細(xì)評(píng)價(jià):“今天,OpenAI發(fā)布了GPT-4.5。我已經(jīng)期待了大約兩年,自從GPT-4推出以來(lái),因?yàn)檫@次發(fā)布提供了一個(gè)衡量通過(guò)擴(kuò)展預(yù)訓(xùn)練計(jì)算(即簡(jiǎn)單地訓(xùn)練一個(gè)更大模型)所能獲得的改進(jìn)斜率的定性指標(biāo)。每個(gè)0.5的版本升級(jí)大約對(duì)應(yīng)10倍的預(yù)訓(xùn)練計(jì)算量。
回想一下,GPT-1幾乎無(wú)法生成連貫的文本。GPT-2是一個(gè)令人困惑的玩具。GPT-2.5被‘跳過(guò)’,直接升級(jí)為更有趣的GPT-3。GPT-3.5達(dá)到了一個(gè)臨界點(diǎn),足以作為產(chǎn)品推出,并引發(fā)了OpenAI的‘ChatGPT時(shí)刻’。
而GPT-4雖然也有所改進(jìn),但我必須說(shuō),這種改進(jìn)非常微妙。我記得參加了一個(gè)黑客松,試圖找到GPT-4明顯優(yōu)于3.5的具體提示。這些例子確實(shí)存在,但清晰且明確的‘絕對(duì)優(yōu)勢(shì)’案例卻很難找到。一切都有些改進(jìn),但這種改進(jìn)是彌散的。詞匯選擇更具創(chuàng)意,對(duì)提示中細(xì)微差別的理解有所提升,類比更有意義,模型也稍微有趣了一點(diǎn),對(duì)罕見(jiàn)領(lǐng)域的知識(shí)和理解也有所改善,幻覺(jué)現(xiàn)象也少了一些,整體感覺(jué)更好了。
這就像水漲船高的效應(yīng),一切都在不知不覺(jué)中提升了大約20%。因此,我?guī)е@種預(yù)期去測(cè)試GPT-4.5,我在幾天前獲得了訪問(wèn)權(quán)限,它的預(yù)訓(xùn)練計(jì)算量比GPT-4高出10倍。而我感覺(jué),我又回到了兩年前的那個(gè)黑客松。一切都有些改進(jìn),這很棒,但這些改進(jìn)并非是顯而易見(jiàn)的。
盡管如此,這仍然是一個(gè)非常有趣且令人興奮的定性指標(biāo),它表明僅僅通過(guò)訓(xùn)練一個(gè)更大的模型,就能獲得某種‘免費(fèi)’的能力提升。
請(qǐng)注意,GPT-4.5僅通過(guò)預(yù)訓(xùn)練、監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行訓(xùn)練,因此它還不是一款推理模型。因此,這次模型發(fā)布并沒(méi)有在需要推理能力的關(guān)鍵領(lǐng)域(如數(shù)學(xué)、編程等)推動(dòng)模型能力的進(jìn)步。
在這些情況下,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練并獲得思考能力至關(guān)重要,即使它是在較舊的基礎(chǔ)模型上實(shí)現(xiàn)的(例如類似GPT-4的能力)。目前,最先進(jìn)的模型仍然是完整的o1。想必OpenAI接下來(lái)會(huì)嘗試在GPT-4.5的基礎(chǔ)上進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以使其具備思考能力,并推動(dòng)這些領(lǐng)域的能力提升。
然而,我們確實(shí)期望在非推理密集型任務(wù)中看到改進(jìn),我認(rèn)為這些任務(wù)更多與情商(EQ)相關(guān),例如受到世界知識(shí)、創(chuàng)造力、類比能力、一般理解能力、幽默感等的限制。因此,這些是我最感興趣的能力測(cè)試領(lǐng)域。因此,我想在這里的X平臺(tái)上通過(guò)一個(gè)互動(dòng)的‘語(yǔ)言模型競(jìng)技場(chǎng)精簡(jiǎn)版’,結(jié)合圖片和投票,以帖子的形式展示5個(gè)有趣,引人發(fā)笑的提示,來(lái)測(cè)試這些能力。
遺憾的是,X平臺(tái)不允許你在單個(gè)帖子中同時(shí)包含圖片和投票,因此我不得不交替發(fā)布帖子:一個(gè)帖子展示圖片(提示以及來(lái)自4和4.5的兩個(gè)回答),另一個(gè)帖子則是投票,人們可以投票選擇哪個(gè)回答更好。8小時(shí)后,我會(huì)揭曉哪個(gè)回答來(lái)自哪個(gè)模型。讓我們看看會(huì)發(fā)生什么:)”
2
Box CEO對(duì)GPT-4.5的看法Box公司首席執(zhí)行官阿隆·萊維(Aaron Levie)也在X平臺(tái)上分享了他對(duì)GPT-4.5的看法。
他認(rèn)為這款模型在企業(yè)級(jí)應(yīng)用中具有巨大潛力,并表示Box公司已經(jīng)在使用GPT-4.5從復(fù)雜的企業(yè)內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)?!叭斯ぶ悄艿耐黄撇粩嘤楷F(xiàn)。OpenAI剛剛宣布推出GPT-4.5,我們將在今天晚些時(shí)候通過(guò)Box AI Studio將其提供給Box客戶。我們已經(jīng)在Box AI的早期訪問(wèn)模式下測(cè)試了GPT-4.5,用于高級(jí)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)的用例,并取得了出色的結(jié)果。
通過(guò)Box AI的企業(yè)級(jí)評(píng)估,我們針對(duì)多種不同場(chǎng)景對(duì)模型進(jìn)行測(cè)試,包括問(wèn)答準(zhǔn)確性、推理能力等。特別是為了探索GPT-4.5的能力,我們專注于一個(gè)對(duì)企業(yè)影響潛力巨大的關(guān)鍵領(lǐng)域:從復(fù)雜的企業(yè)內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù),即元數(shù)據(jù)提取。
在Box,我們使用多個(gè)企業(yè)級(jí)數(shù)據(jù)集嚴(yán)格評(píng)估數(shù)據(jù)提取模型。其中一個(gè)關(guān)鍵數(shù)據(jù)集是CUAD,它包含超過(guò)510份商業(yè)法律合同。在這個(gè)數(shù)據(jù)集中,Box識(shí)別出可以從非結(jié)構(gòu)化內(nèi)容中提取的17,000個(gè)字段,并基于這些字段的單次提取對(duì)模型進(jìn)行評(píng)估(這是我們最嚴(yán)格的測(cè)試,模型只有一次機(jī)會(huì)在單次運(yùn)行中提取所有元數(shù)據(jù),而不是多次嘗試)。
在我們的測(cè)試中,與GPT-4o相比,GPT-4.5準(zhǔn)確提取的字段多出了19個(gè)百分點(diǎn),這突顯了其處理復(fù)雜合同數(shù)據(jù)的更強(qiáng)能力。接下來(lái),為了確保GPT-4.5能夠應(yīng)對(duì)現(xiàn)實(shí)世界中企業(yè)內(nèi)容的需求,我們用更具挑戰(zhàn)性的文件集對(duì)其性能進(jìn)行了評(píng)估,即Box自己的挑戰(zhàn)集。我們選擇了一部分復(fù)雜的法律合同——那些包含多模態(tài)內(nèi)容、高密度信息且長(zhǎng)度超過(guò)200頁(yè)的合同,來(lái)代表我們客戶面臨的最困難場(chǎng)景。
在這個(gè)挑戰(zhàn)集中,GPT-4.5在提取關(guān)鍵字段的準(zhǔn)確性上也始終優(yōu)于GPT-4o,證明了其處理復(fù)雜且微妙的法律文件的卓越能力??傮w而言,我們?cè)趶?fù)雜企業(yè)數(shù)據(jù)方面看到了GPT-4.5的出色表現(xiàn),這將為企業(yè)解鎖更多用例?!?/p>
3
價(jià)格問(wèn)題及其重要性盡管早期用戶發(fā)現(xiàn)GPT-4.5是可以使用的盡管它有點(diǎn)“懶惰”,但他們對(duì)其發(fā)布提出了質(zhì)疑。例如,著名的OpenAI批評(píng)者加里·馬庫(kù)斯(Gary Marcus)在Bluesky上稱GPT-4.5為“毫無(wú)新意的產(chǎn)品”(“nothingburger”)。
Hugging Face首席執(zhí)行官克萊門特·德朗格(Clément Delangue)評(píng)論稱,GPT-4.5的閉源特性使其顯得“平平無(wú)奇”(“meh”)。然而,許多人指出,GPT-4.5的表現(xiàn)并不是問(wèn)題所在。
相反,人們質(zhì)疑的是,OpenAI為何會(huì)發(fā)布一個(gè)使用成本如此之高、幾乎令人望而卻步,卻又不如其其他模型強(qiáng)大的模型。
一位用戶在X平臺(tái)上評(píng)論道:“所以你是說(shuō)GPT-4.5的價(jià)值超過(guò)了o1,但它的基準(zhǔn)測(cè)試表現(xiàn)卻不如同等級(jí)別的模型……這讓人難以信服?!逼渌鸛用戶推測(cè),高昂的token成本可能是為了阻止DeepSeek等競(jìng)爭(zhēng)對(duì)手“提取”4.5模型的精華。DeepSeek在2024年1月成為OpenAI的有力競(jìng)爭(zhēng)對(duì)手,行業(yè)領(lǐng)導(dǎo)者發(fā)現(xiàn)DeepSeek-R1的推理能力與OpenAI的模型相當(dāng),但更具性價(jià)比。(Venture Beat)
本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號(hào):【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!