OpenAI發(fā)布最新模型o1應(yīng)用場(chǎng)景和對(duì)大語言模型產(chǎn)品的7點(diǎn)啟發(fā)

0 評(píng)論 1592 瀏覽 0 收藏 11 分鐘

OpenAI 最新推出的 GPT-o1 模型,以其卓越的推理能力和安全性,為人工智能領(lǐng)域帶來了新的發(fā)展機(jī)遇。本文深入探討了 GPT-o1 的命名由來、安全性優(yōu)勢(shì)、適用的新場(chǎng)景,以及它在 AIGC 領(lǐng)域的七點(diǎn)啟發(fā)。

OpenAI新模型為何命名為GPT-o1?

像人類一樣在說話前花更多時(shí)間思考問題。通過訓(xùn)練OpenAI-o1學(xué)會(huì)了優(yōu)化思維過程,嘗試不同的策略,并能識(shí)別自己的錯(cuò)誤。在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,GPT-4o 僅正確解決了 13% 的問題,而o1推理模型的得分為 83%。它們的編程能力也在競賽中得到評(píng)估,達(dá)到了 Codeforces 比賽的 89% 分位。

o1尚未具備許多讓 ChatGPT 實(shí)用的功能,例如瀏覽網(wǎng)頁獲取信息、上傳文件和圖像。在許多常見情況下,GPT-4o 在近期內(nèi)將更具能力。

但對(duì)于復(fù)雜的推理任務(wù),這是一項(xiàng)重大進(jìn)展,代表了人工智能能力的新水平。鑒于此,將計(jì)數(shù)器重置為1,并將這個(gè)系列命名為 OpenAI o1。

安全性

在開發(fā)這些新模型的過程中,o1提出了一種新的安全訓(xùn)練方法,利用模型的推理能力使其遵循安全和一致性指南。

通過在上下文中推理安全規(guī)則,模型能夠更有效地應(yīng)用這些規(guī)則。

衡量安全性的一種方式是測(cè)試模型在用戶試圖繞過其安全規(guī)則時(shí)(稱為“越獄”)能多大程度上繼續(xù)遵守安全規(guī)則。在最難的越獄測(cè)試之一中,GPT-4o 的得分為 22(在 0-100 的評(píng)分標(biāo)準(zhǔn)上),而 o1-preview 模型得分為 84。

適用新場(chǎng)景

在處理科學(xué)、編程、數(shù)學(xué)等領(lǐng)域中的復(fù)雜問題,這些增強(qiáng)的推理能力特別有用。

例如,o1 可以被醫(yī)療研究人員用來標(biāo)注細(xì)胞測(cè)序數(shù)據(jù),被物理學(xué)家用來生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,并可供各領(lǐng)域的開發(fā)者用于構(gòu)建和執(zhí)行多步驟的工作流程。

OpenAI o1-mini

o1系列在準(zhǔn)確生成和調(diào)試復(fù)雜代碼方面表現(xiàn)出色。為了為開發(fā)者提供更高效的解決方案,發(fā)布了 OpenAI o1-mini,這是一款速度更快、成本更低的推理模型,尤其在編程方面非常有效。作為一款較小的模型,o1-mini 比 o1-preview 便宜 80%,使其成為在需要推理但不需要廣泛世界知識(shí)的應(yīng)用中,一款強(qiáng)大且具有成本效益的模型。

一、如何使用 OpenAI o1

從今天開始,ChatGPT Plus 和 Team 用戶將能夠在 ChatGPT 中訪問 o1 模型。用戶可以在模型選擇器中手動(dòng)選擇 o1-preview 和 o1-mini 兩個(gè)版本。上線時(shí),o1-preview 每周的消息限制為 30 條,o1-mini 的限制為 50 條。并使 ChatGPT 能夠根據(jù)給定的提示自動(dòng)選擇合適的模型。

綜上我們終于看到了推理階段擴(kuò)展范式的普及和生產(chǎn)部署。

二、o1 帶給我們AIGC領(lǐng)域的啟發(fā)

在預(yù)訓(xùn)練上的Scalling law到底有沒有失效?

啟發(fā)一:Scalling law 失效還是有效?

Scalling law 是縮放定律是物理量之間的關(guān)系,其中所有物理量都以冪次形式出現(xiàn),持續(xù)的投放更多的算力卡在模型預(yù)訓(xùn)練輸出結(jié)果上大模型的精度會(huì)冪次方提升嗎?

目前OpenAI給出的答案是NO 1

如Sutton在《Bitter Lesson》中所說,只有兩種技術(shù)可以隨著計(jì)算資源的增加而無限擴(kuò)展:”學(xué)習(xí)”和”搜索”。

目前OpenAI o1選擇了搜索,既推理。

啟發(fā)二:推理不是模型越大越好

推理不需要一個(gè)龐大的模型來進(jìn)行。

因?yàn)樵S多參數(shù)都是為了記憶事實(shí),從而在類似問答比賽(Trivia QA)等基準(zhǔn)測(cè)試中表現(xiàn)良好。

實(shí)際上,可以將推理從知識(shí)中分離出來,也就是通過一個(gè)小型的“推理核心”來調(diào)用像瀏覽器、代碼驗(yàn)證器這樣的工具。

這可能會(huì)減少預(yù)訓(xùn)練所需的計(jì)算量。

啟發(fā)三:大量算力可以從預(yù)訓(xùn)練和調(diào)整參數(shù)到推理服務(wù)中

大型語言模型(LLMs)本質(zhì)上是基于文本的模擬器。

通過在模擬器中展開多種可能的策略和場(chǎng)景,模型最終會(huì)收斂到優(yōu)質(zhì)的解決方案。

這一過程是一個(gè)已經(jīng)被充分研究過的問題,比如AlphaGo的蒙特卡洛樹搜索(MCTS)。

注解:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS) 是一種基于隨機(jī)模擬的搜索算法,主要用于解決需要進(jìn)行決策和推理的復(fù)雜問題,如棋類游戲(例如圍棋、國際象棋等)。MCTS通過模擬游戲中的不同可能走法,逐步構(gòu)建和優(yōu)化決策樹,從而在復(fù)雜的狀態(tài)空間中找到最優(yōu)策略。

啟發(fā)四:擴(kuò)展業(yè)務(wù)推理算力比擴(kuò)招模型參數(shù)算力更高效

業(yè)界永遠(yuǎn)比學(xué)界領(lǐng)先一步實(shí)踐,上個(gè)月,Arxiv上相隔一周發(fā)表了兩篇論文:

  • 《大型語言猴子:通過重復(fù)采樣擴(kuò)展推理計(jì)算》。Brown 等人發(fā)現(xiàn),DeepSeek-Coder 在 SWE-Bench 上的表現(xiàn)從一次采樣的 15.9% 提升到 250 次采樣的 56%,超過了 Sonnet-3.5。
  • 《在測(cè)試時(shí)計(jì)算擴(kuò)展比擴(kuò)展模型參數(shù)更有效》。Snell 等人發(fā)現(xiàn),PaLM 2-S 在 MATH 測(cè)試中通過測(cè)試時(shí)搜索擊敗了大 14 倍的模型。

將 o1 產(chǎn)品化遠(yuǎn)比達(dá)到學(xué)界基準(zhǔn)困難得多。在實(shí)際推理問題中,如何決定何時(shí)停止搜索?獎(jiǎng)勵(lì)函數(shù)是什么?成功標(biāo)準(zhǔn)是什么?何時(shí)在循環(huán)中調(diào)用像代碼解釋器這樣的工具?如何考慮這些 CPU 過程的計(jì)算成本?他們的研究報(bào)告中并沒有詳細(xì)分享這些內(nèi)容。

啟發(fā)五:未來LLMs數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量比算力更有價(jià)值

MCTS搜索主要由四個(gè)步驟組成:

  1. 選擇(Selection):從根節(jié)點(diǎn)(即當(dāng)前局面)出發(fā),根據(jù)某種策略(如 UCB1 算法)選擇一個(gè)節(jié)點(diǎn),沿著樹的路徑向下搜索,直到找到尚未完全展開的節(jié)點(diǎn)(即有子節(jié)點(diǎn)尚未探索的節(jié)點(diǎn))。
  2. 擴(kuò)展(Expansion):如果所選的節(jié)點(diǎn)有可以展開的子節(jié)點(diǎn),那么會(huì)從中隨機(jī)選擇一個(gè)未被探索的子節(jié)點(diǎn)進(jìn)行擴(kuò)展,即將該節(jié)點(diǎn)加入到?jīng)Q策樹中。
  3. 模擬(Simulation):從新擴(kuò)展的節(jié)點(diǎn)開始,通過隨機(jī)走法模擬出游戲的結(jié)果,直到游戲結(jié)束。這一步可以被視為對(duì)該節(jié)點(diǎn)后續(xù)發(fā)展的一次模擬評(píng)估。
  4. 回溯更新(Backpropagation):將模擬的結(jié)果從擴(kuò)展的節(jié)點(diǎn)向上反饋,更新沿途經(jīng)過的所有節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù),如勝率或價(jià)值。通過反復(fù)執(zhí)行這些步驟,樹中的不同節(jié)點(diǎn)逐漸得到越來越多的評(píng)估數(shù)據(jù),幫助系統(tǒng)做出更好的決策。

構(gòu)建搜索軌跡包含正負(fù)獎(jiǎng)勵(lì)的訓(xùn)練數(shù)據(jù)集的意義和價(jià)值可能比堆10000張卡有意義。

啟發(fā)六:o1的應(yīng)用場(chǎng)景

o1模型的應(yīng)用場(chǎng)景,其實(shí)它并不適合所有情況。o1的鏈?zhǔn)酵评砀m合那些需要層層推導(dǎo)的任務(wù),因?yàn)樗瞄L把問題拆解成多個(gè)步驟,逐步推理出結(jié)果。

類似CoT, ToT。

但問題是,有些題目本身并不需要那么復(fù)雜的推理過程,反而需要更直接的解法,這時(shí)候o1反而顯得有點(diǎn)“用力過猛”。你讓它處理一個(gè)不太復(fù)雜的問題,它可能會(huì)過度拆解,導(dǎo)致不必要的時(shí)間和算力浪費(fèi)。這樣一來,它的慢速反應(yīng)和高計(jì)算成本就成了劣勢(shì)。

而像需要嵌入獎(jiǎng)勵(lì)模型(reward model)的場(chǎng)景,o1就更能發(fā)揮優(yōu)勢(shì)。它通過反復(fù)推理和采樣找到最優(yōu)解,而獎(jiǎng)勵(lì)模型可以幫助它評(píng)估每個(gè)步驟的正確性,最終優(yōu)化出一個(gè)更合適的答案。因此,o1特別適合那些需要多層次決策和精確推理的復(fù)雜場(chǎng)景,而并非所有問題都適合用它來解決。

啟發(fā)七:LLMs創(chuàng)業(yè)不要在OpenAI炮火的覆蓋邊界里

這次o1會(huì)轟炸掉一批用LLMs做編程的項(xiàng)目、做醫(yī)療數(shù)據(jù)標(biāo)注的項(xiàng)目

做LLM-agent優(yōu)化大語言模型的幻覺問題的智能體也被轟炸了。

做大語言模型領(lǐng)域的創(chuàng)業(yè)產(chǎn)品,首先不要做OpenAI炮火覆蓋范圍內(nèi)的,但是可以做很多OpenAI 10年內(nèi)覆蓋不到的產(chǎn)品!

專欄作家

連詩路AI產(chǎn)品,公眾號(hào):AI產(chǎn)品有思路。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進(jìn)化論:AI+時(shí)代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!