OpenAI 凌晨發(fā)布 o1 系列推理模型的兩個(gè) o1-preview 以及 o1-mini,旨在真正像人類一樣思考
OpenAI在深夜發(fā)布了o1系列推理模型,標(biāo)志著人工智能在模擬人類思考方面邁出了重要一步。新模型在處理科學(xué)、編程和數(shù)學(xué)問題上展現(xiàn)出前所未有的能力,預(yù)示著AI技術(shù)的又一次飛躍。本文介紹了o1系列模型的特點(diǎn)、安全性措施以及如何為不同用戶提供服務(wù)。
凌晨,OpenAI 在沒有任何預(yù)告下正式發(fā)布了全新 o1 系列模型:
據(jù)悉,這次發(fā)布的 o1-preview 是 o1?系列模型的首個(gè)嘗鮮版,OpenAI 預(yù)計(jì)會(huì)有定期的更新和改進(jìn)。
與此同時(shí),OpenAI 還包括了正在開發(fā)中的下一次更新的評估。
包括 o1 在內(nèi)的系列模型,旨在花更多時(shí)間進(jìn)行思考,能夠推理復(fù)雜任務(wù),并在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域解決比以往模型更難的問題。
OpenAI 將其比喻成人類。通過訓(xùn)練,這些模型學(xué)會(huì)優(yōu)化思考過程,嘗試不同的策略,并能夠識別自己的錯(cuò)誤,真正的像人類一樣思考。
OpenAI 透露,o1-preview 是系列推理模型在 ChatGPT 和 API 中的早期預(yù)覽,OpenAI 還計(jì)劃繼續(xù)開發(fā)并發(fā)布 GPT 系列的模型,同時(shí)發(fā)布新的 OpenAI o1系列模型。
除了模型更新外,OpenAI 預(yù)計(jì)還會(huì)增加瀏覽、文件和圖片上傳等功能,以使其對所有人更有用。
o1 系列及 o1-preview 模型
在 OpenAI 測試中,推理模型在物理、化學(xué)和生物等挑戰(zhàn)性基準(zhǔn)任務(wù)中表現(xiàn)得與博士生相當(dāng)。
在數(shù)學(xué)和編程方面表現(xiàn)出色。在國際數(shù)學(xué)奧林匹克(IMO)選拔考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型得分為 83%。編程能力在比賽中達(dá)到了Codeforces 競賽的 89 百分位。
OpenAI 表示,作為早期模型,目前還不具備使 ChatGPT 實(shí)用的許多功能,比如瀏覽信息、上傳文件和圖片。對于許多常見情況,GPT-4o 在短期內(nèi)會(huì)更為強(qiáng)大。
但對于復(fù)雜的推理任務(wù),這代表了 AI 能力的重大進(jìn)展。OpenAI 將計(jì)數(shù)器重置為1,并將這一系列命名為OpenAI o1。
安全性
在開發(fā)該系列新模型過程中,OpenAI 提出了一種新的安全訓(xùn)練方法,利用它們的推理能力,使其遵循安全和一致性指南。通過在上下文中推理安全規(guī)則,模型能夠更有效地應(yīng)用這些規(guī)則。
OpenAI 通過測試模型在用戶嘗試?yán)@過其安全規(guī)則(即“越獄”)時(shí)的表現(xiàn)來衡量安全性。
在OpenAI 最難的越獄測試中,GPT-4o 得分為22(滿分 100 分),而 OpenAI 的o1預(yù)覽模型得分為 84。
為了匹配這些模型的新能力,OpenAI 加強(qiáng)了OpenAI 的安全工作、內(nèi)部治理以及與聯(lián)邦政府的合作。
包括使用OpenAI 的《準(zhǔn)備框架》進(jìn)行嚴(yán)格的測試和評估、世界級的紅隊(duì)測試、以及包括安全與安保委員會(huì)在內(nèi)的董事會(huì)級別審查流程。
為了推進(jìn)對AI安全的承諾,OpenAI 最近與美國和英國 AI 安全機(jī)構(gòu)達(dá)成了正式協(xié)議。OpenAI 已開始將這些協(xié)議落實(shí)到位,包括為這些機(jī)構(gòu)提供該模型研究版本的早期訪問。
適用人群
OpenAI 表示,這些增強(qiáng)的推理能力可能對解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域的復(fù)雜問題特別有用。
例如,o1可以幫助醫(yī)療研究人員標(biāo)注細(xì)胞測序數(shù)據(jù),幫助物理學(xué)家生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,并幫助各領(lǐng)域的開發(fā)人員構(gòu)建和執(zhí)行多步工作流程。
OpenAI o1-mini
OpenAI 表示,o1系列在準(zhǔn)確生成和調(diào)試復(fù)雜代碼方面表現(xiàn)優(yōu)異。
為了為開發(fā)人員提供更高效的解決方案,OpenAI 還發(fā)布了OpenAI o1-mini,這是一款更快、更便宜的推理模型,特別適用于編程。
作為較小的模型,o1-mini 的成本比 o1 預(yù)覽版便宜 80%,是一款適合需要推理但不需要廣泛世界知識的應(yīng)用的強(qiáng)大且具成本效益的模型。
如何使用 OpenAI o1
9 月 12 日起,ChatGPT Plus 和 Team 用戶可以在 ChatGPT 中訪問 o1 模型。可以手動(dòng)選擇 o1-preview 和 o1-mini 模型,發(fā)布時(shí)每周的消息限制分別為30條和50條。
目前,OpenAI 正在努力增加這些限制,并使ChatGPT能夠自動(dòng)選擇最合適的模型。下周,ChatGPT Enterprise 和 Edu 用戶也將能夠訪問這兩個(gè)模型。
據(jù)悉,開發(fā)者可以開始使用 API 原型開發(fā),限速為每分鐘20次請求。經(jīng)過額外測試后,OpenAI 將努力提高這些限制。
當(dāng)前這些模型 API 不包括函數(shù)調(diào)用、流式傳輸、系統(tǒng)消息支持等功能。此外,OpenAI 也計(jì)劃為所有ChatGPT免費(fèi)用戶提供 o1-mini 訪問權(quán)限。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自O(shè)penAI社交媒體截圖
AI賽道毋庸自疑是勢不可擋的,未來想要提高我們的核心競爭力學(xué)會(huì)用并且用的好是一個(gè)很關(guān)鍵的點(diǎn)