GPT5暫時(shí)沒戲了

0 評(píng)論 896 瀏覽 0 收藏 7 分鐘

隨著o1-preview和o1-mini的推出,我們站在了探索AI新邊界的門檻上。本文將帶您深入了解"o1"模型的獨(dú)特之處,以及它們?nèi)绾沃匦露x我們對AI能力的期待。

自從OpenAI于2023年3月推出強(qiáng)大的專有大型語言模型GPT-4(距今已有 18 個(gè)月)以來,用戶和開發(fā)者們一直在猜測,這家引領(lǐng)硅谷乃至全球生成式 AI 熱潮的公司何時(shí)會(huì)推出下一代模型,大家普遍認(rèn)為這一新版本會(huì)被稱為 GPT-5。

然而,事實(shí)證明,GPT系列暫時(shí)被跳過了,取而代之的是一個(gè)全新的模型家族。

今天,經(jīng)過數(shù)月的傳聞和最近幾天愈演愈烈的報(bào)道,OpenAI宣布推出了其 “o1” AI模型家族,首先推出的是兩個(gè)模型:o1-preview和o1-mini。公司表示,這些模型的設(shè)計(jì)旨在“通過復(fù)雜任務(wù)的推理,解決比GPT系列更難的問題”。

目前,這兩個(gè)模型已經(jīng)向ChatGPT Plus用戶開放,但o1-preview每周消息數(shù)量限制為30條,o1-mini為50條。

然而,OpenAI也提醒道:“作為早期模型,它尚不具備使ChatGPT實(shí)用的許多功能,比如瀏覽網(wǎng)絡(luò)獲取信息或上傳文件和圖像。在許多常見情況下,GPT-4o在短期內(nèi)可能會(huì)更為出色?!?/p>

根據(jù)OpenAI在其API平臺(tái)網(wǎng)站上的說明,該模型家族在測試階段只支持“文本,不支持圖像”。

一、o1 模型相較于GPT的優(yōu)勢

OpenAI聲稱,其全新的o1系列特別適合處理科學(xué)、醫(yī)療和技術(shù)等領(lǐng)域中的復(fù)雜問題。

OpenAI設(shè)想這些模型將被廣泛應(yīng)用于多個(gè)領(lǐng)域:從幫助物理學(xué)家生成量子光學(xué)的數(shù)學(xué)公式,到協(xié)助醫(yī)療研究人員為細(xì)胞測序數(shù)據(jù)做注釋。

開發(fā)者也發(fā)現(xiàn),o1-mini模型在構(gòu)建和執(zhí)行多步驟工作流、調(diào)試代碼以及高效解決編程挑戰(zhàn)方面表現(xiàn)出色。

二、o1-preview的表現(xiàn)

o1-preview模型設(shè)計(jì)用來應(yīng)對具有挑戰(zhàn)性的任務(wù),其通過花費(fèi)更多時(shí)間進(jìn)行思考和優(yōu)化響應(yīng),類似于人類處理復(fù)雜問題的方式。

測試顯示,這種方法使該模型在物理、化學(xué)和生物學(xué)等領(lǐng)域的表現(xiàn)接近博士生水平。

此外,o1-preview模型在編程方面表現(xiàn)出色,在Codeforces競賽中排名超過89%的其他模型,展現(xiàn)了處理多步驟工作流、調(diào)試復(fù)雜代碼和生成精準(zhǔn)解決方案的能力。

在國際數(shù)學(xué)奧林匹克(IMO)預(yù)選賽等基準(zhǔn)測試中,o1-preview展示了強(qiáng)大的能力,解決了83%的問題,而其前身GPT-4o僅成功解決了13%。

該模型現(xiàn)已向ChatGPT Plus和Team用戶開放,企業(yè)和教育用戶將于下周獲得訪問權(quán)限。開發(fā)者也可以通過OpenAI API使用該模型,但需達(dá)到API使用 5級(jí)的資格,并且最初會(huì)有速率限制。

三、o1-mini功能較弱但成本降低80%

與o1-preview同時(shí)推出的還有o1-mini模型,這是一種更精簡的版本,旨在提供更快且更便宜的推理能力。

雖然o1-mini主要針對編程和STEM任務(wù)進(jìn)行了優(yōu)化,但在數(shù)學(xué)和編程方面依然表現(xiàn)出色。

在IMO數(shù)學(xué)基準(zhǔn)測試中,o1-mini得分為70%,幾乎與o1-preview的 74% 相當(dāng),同時(shí)推理成本卻顯著降低。在編程評(píng)估中,它在Codeforces上的Elo 分?jǐn)?shù)為1650,躋身前86%的程序員行列。

與o1-preview相比,o1-mini的價(jià)格低80%,適合那些需要推理能力但不需要o1-preview模型廣泛知識(shí)的開發(fā)者和研究人員。

這一具成本效益的解決方案也將向ChatGPT Plus、Team(團(tuán)隊(duì))、Enterprise(企業(yè)) 和Edu(教育)用戶開放,并計(jì)劃在未來擴(kuò)展至 ChatGPT免費(fèi)用戶。

四、安全性與安全增強(qiáng)

秉承OpenAI對安全的承諾,o1系列模型采用了一種全新的安全訓(xùn)練方法,提升了模型遵循安全和對齊準(zhǔn)則的能力。

OpenAI強(qiáng)調(diào),o1-preview在其最難的越獄測試中取得了令人印象深刻的 84 分,這相比GPT-4o的22分有顯著提升。這種在上下文中推理安全規(guī)則的能力,使得o1模型在處理不安全的提示時(shí)表現(xiàn)更好,能夠有效避免生成不當(dāng)內(nèi)容。

作為更廣泛安全工作的組成部分,OpenAI已與美國和英國的AI安全研究機(jī)構(gòu)達(dá)成協(xié)議。根據(jù)這些合作關(guān)系,OpenAI向這些機(jī)構(gòu)提供了o1模型的早期研究版本,以幫助評(píng)估和測試未來的AI系統(tǒng)。

此外,OpenAI的安全工作還包括全面的內(nèi)部治理,與聯(lián)邦政府的合作,并通過定期測試、“紅隊(duì)”測試以及公司安全與安保委員會(huì)的董事會(huì)監(jiān)督,確保模型的安全性和合規(guī)性。

五、OpenAI o1系列的下一步計(jì)劃

盡管o1-preview和o1-mini模型在推理和解決問題方面表現(xiàn)出色,OpenAI 也承認(rèn)這僅僅是個(gè)開始。

公司計(jì)劃定期更新和改進(jìn)這些模型,未來將添加瀏覽功能、文件和圖像上傳功能以及函數(shù)調(diào)用功能,這些功能目前尚未在API版本中提供。

展望未來,OpenAI將繼續(xù)發(fā)展其GPT系列和o1系列,不斷拓展AI在各個(gè)領(lǐng)域的能力。用戶可以期待持續(xù)的進(jìn)步,隨著OpenAI努力提升這些模型的實(shí)用性和可及性,它們將在不同應(yīng)用場景中發(fā)揮更大作用。(VentureBeat)

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號(hào):【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!