国产精品无码久久综合网老牛影视，亚洲а∨天堂久久精品，国产成人精品a视频一区，婷婷丁香五月天综合东京热，日韩av片高清在线观看，国产精品4hu.www，欧美自拍偷拍一区，亚洲国产理论片在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

OpenAI發(fā)布最新模型o1應(yīng)用場(chǎng)景和對(duì)大語言模型產(chǎn)品的7點(diǎn)啟發(fā)

連詩路AI產(chǎn)品

2024-09-13

0 評(píng)論 1592 瀏覽 0 收藏

11 分鐘

OpenAI 最新推出的 GPT-o1 模型，以其卓越的推理能力和安全性，為人工智能領(lǐng)域帶來了新的發(fā)展機(jī)遇。本文深入探討了 GPT-o1 的命名由來、安全性優(yōu)勢(shì)、適用的新場(chǎng)景，以及它在 AIGC 領(lǐng)域的七點(diǎn)啟發(fā)。

OpenAI新模型為何命名為GPT-o1？

像人類一樣在說話前花更多時(shí)間思考問題。通過訓(xùn)練OpenAI-o1學(xué)會(huì)了優(yōu)化思維過程，嘗試不同的策略，并能識(shí)別自己的錯(cuò)誤。在國際數(shù)學(xué)奧林匹克（IMO）資格考試中，GPT-4o 僅正確解決了 13% 的問題，而o1推理模型的得分為 83%。它們的編程能力也在競賽中得到評(píng)估，達(dá)到了 Codeforces 比賽的 89% 分位。

o1尚未具備許多讓 ChatGPT 實(shí)用的功能，例如瀏覽網(wǎng)頁獲取信息、上傳文件和圖像。在許多常見情況下，GPT-4o 在近期內(nèi)將更具能力。

但對(duì)于復(fù)雜的推理任務(wù)，這是一項(xiàng)重大進(jìn)展，代表了人工智能能力的新水平。鑒于此，將計(jì)數(shù)器重置為1，并將這個(gè)系列命名為 OpenAI o1。

安全性

在開發(fā)這些新模型的過程中，o1提出了一種新的安全訓(xùn)練方法，利用模型的推理能力使其遵循安全和一致性指南。

通過在上下文中推理安全規(guī)則，模型能夠更有效地應(yīng)用這些規(guī)則。

衡量安全性的一種方式是測(cè)試模型在用戶試圖繞過其安全規(guī)則時(shí)（稱為“越獄”）能多大程度上繼續(xù)遵守安全規(guī)則。在最難的越獄測(cè)試之一中，GPT-4o 的得分為 22（在 0-100 的評(píng)分標(biāo)準(zhǔn)上），而 o1-preview 模型得分為 84。

適用新場(chǎng)景

在處理科學(xué)、編程、數(shù)學(xué)等領(lǐng)域中的復(fù)雜問題，這些增強(qiáng)的推理能力特別有用。

例如，o1 可以被醫(yī)療研究人員用來標(biāo)注細(xì)胞測(cè)序數(shù)據(jù)，被物理學(xué)家用來生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，并可供各領(lǐng)域的開發(fā)者用于構(gòu)建和執(zhí)行多步驟的工作流程。

OpenAI o1-mini

o1系列在準(zhǔn)確生成和調(diào)試復(fù)雜代碼方面表現(xiàn)出色。為了為開發(fā)者提供更高效的解決方案，發(fā)布了 OpenAI o1-mini，這是一款速度更快、成本更低的推理模型，尤其在編程方面非常有效。作為一款較小的模型，o1-mini 比 o1-preview 便宜 80%，使其成為在需要推理但不需要廣泛世界知識(shí)的應(yīng)用中，一款強(qiáng)大且具有成本效益的模型。

一、如何使用 OpenAI o1

從今天開始，ChatGPT Plus 和 Team 用戶將能夠在 ChatGPT 中訪問 o1 模型。用戶可以在模型選擇器中手動(dòng)選擇 o1-preview 和 o1-mini 兩個(gè)版本。上線時(shí)，o1-preview 每周的消息限制為 30 條，o1-mini 的限制為 50 條。并使 ChatGPT 能夠根據(jù)給定的提示自動(dòng)選擇合適的模型。

綜上我們終于看到了推理階段擴(kuò)展范式的普及和生產(chǎn)部署。

二、o1 帶給我們AIGC領(lǐng)域的啟發(fā)

在預(yù)訓(xùn)練上的Scalling law到底有沒有失效？

啟發(fā)一：Scalling law 失效還是有效？

Scalling law 是縮放定律是物理量之間的關(guān)系，其中所有物理量都以冪次形式出現(xiàn)，持續(xù)的投放更多的算力卡在模型預(yù)訓(xùn)練輸出結(jié)果上大模型的精度會(huì)冪次方提升嗎？

目前OpenAI給出的答案是NO 1

如Sutton在《Bitter Lesson》中所說，只有兩種技術(shù)可以隨著計(jì)算資源的增加而無限擴(kuò)展：”學(xué)習(xí)”和”搜索”。

目前OpenAI o1選擇了搜索，既推理。

啟發(fā)二：推理不是模型越大越好

推理不需要一個(gè)龐大的模型來進(jìn)行。

因?yàn)樵S多參數(shù)都是為了記憶事實(shí)，從而在類似問答比賽（Trivia QA）等基準(zhǔn)測(cè)試中表現(xiàn)良好。

實(shí)際上，可以將推理從知識(shí)中分離出來，也就是通過一個(gè)小型的“推理核心”來調(diào)用像瀏覽器、代碼驗(yàn)證器這樣的工具。

這可能會(huì)減少預(yù)訓(xùn)練所需的計(jì)算量。

啟發(fā)三：大量算力可以從預(yù)訓(xùn)練和調(diào)整參數(shù)到推理服務(wù)中

大型語言模型（LLMs）本質(zhì)上是基于文本的模擬器。

通過在模擬器中展開多種可能的策略和場(chǎng)景，模型最終會(huì)收斂到優(yōu)質(zhì)的解決方案。

這一過程是一個(gè)已經(jīng)被充分研究過的問題，比如AlphaGo的蒙特卡洛樹搜索（MCTS）。

注解：蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS） 是一種基于隨機(jī)模擬的搜索算法，主要用于解決需要進(jìn)行決策和推理的復(fù)雜問題，如棋類游戲（例如圍棋、國際象棋等）。MCTS通過模擬游戲中的不同可能走法，逐步構(gòu)建和優(yōu)化決策樹，從而在復(fù)雜的狀態(tài)空間中找到最優(yōu)策略。

啟發(fā)四：擴(kuò)展業(yè)務(wù)推理算力比擴(kuò)招模型參數(shù)算力更高效

業(yè)界永遠(yuǎn)比學(xué)界領(lǐng)先一步實(shí)踐，上個(gè)月，Arxiv上相隔一周發(fā)表了兩篇論文：

《大型語言猴子：通過重復(fù)采樣擴(kuò)展推理計(jì)算》。Brown 等人發(fā)現(xiàn)，DeepSeek-Coder 在 SWE-Bench 上的表現(xiàn)從一次采樣的 15.9% 提升到 250 次采樣的 56%，超過了 Sonnet-3.5。
《在測(cè)試時(shí)計(jì)算擴(kuò)展比擴(kuò)展模型參數(shù)更有效》。Snell 等人發(fā)現(xiàn)，PaLM 2-S 在 MATH 測(cè)試中通過測(cè)試時(shí)搜索擊敗了大 14 倍的模型。

將 o1 產(chǎn)品化遠(yuǎn)比達(dá)到學(xué)界基準(zhǔn)困難得多。在實(shí)際推理問題中，如何決定何時(shí)停止搜索？獎(jiǎng)勵(lì)函數(shù)是什么？成功標(biāo)準(zhǔn)是什么？何時(shí)在循環(huán)中調(diào)用像代碼解釋器這樣的工具？如何考慮這些 CPU 過程的計(jì)算成本？他們的研究報(bào)告中并沒有詳細(xì)分享這些內(nèi)容。

啟發(fā)五：未來LLMs數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量比算力更有價(jià)值

MCTS搜索主要由四個(gè)步驟組成：

選擇（Selection）：從根節(jié)點(diǎn)（即當(dāng)前局面）出發(fā)，根據(jù)某種策略（如 UCB1 算法）選擇一個(gè)節(jié)點(diǎn)，沿著樹的路徑向下搜索，直到找到尚未完全展開的節(jié)點(diǎn)（即有子節(jié)點(diǎn)尚未探索的節(jié)點(diǎn)）。
擴(kuò)展（Expansion）：如果所選的節(jié)點(diǎn)有可以展開的子節(jié)點(diǎn)，那么會(huì)從中隨機(jī)選擇一個(gè)未被探索的子節(jié)點(diǎn)進(jìn)行擴(kuò)展，即將該節(jié)點(diǎn)加入到?jīng)Q策樹中。
模擬（Simulation）：從新擴(kuò)展的節(jié)點(diǎn)開始，通過隨機(jī)走法模擬出游戲的結(jié)果，直到游戲結(jié)束。這一步可以被視為對(duì)該節(jié)點(diǎn)后續(xù)發(fā)展的一次模擬評(píng)估。
回溯更新（Backpropagation）：將模擬的結(jié)果從擴(kuò)展的節(jié)點(diǎn)向上反饋，更新沿途經(jīng)過的所有節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)，如勝率或價(jià)值。通過反復(fù)執(zhí)行這些步驟，樹中的不同節(jié)點(diǎn)逐漸得到越來越多的評(píng)估數(shù)據(jù)，幫助系統(tǒng)做出更好的決策。

構(gòu)建搜索軌跡包含正負(fù)獎(jiǎng)勵(lì)的訓(xùn)練數(shù)據(jù)集的意義和價(jià)值可能比堆10000張卡有意義。

啟發(fā)六：o1的應(yīng)用場(chǎng)景

o1模型的應(yīng)用場(chǎng)景，其實(shí)它并不適合所有情況。o1的鏈?zhǔn)酵评砀m合那些需要層層推導(dǎo)的任務(wù)，因?yàn)樗瞄L把問題拆解成多個(gè)步驟，逐步推理出結(jié)果。

類似CoT, ToT。

但問題是，有些題目本身并不需要那么復(fù)雜的推理過程，反而需要更直接的解法，這時(shí)候o1反而顯得有點(diǎn)“用力過猛”。你讓它處理一個(gè)不太復(fù)雜的問題，它可能會(huì)過度拆解，導(dǎo)致不必要的時(shí)間和算力浪費(fèi)。這樣一來，它的慢速反應(yīng)和高計(jì)算成本就成了劣勢(shì)。

而像需要嵌入獎(jiǎng)勵(lì)模型（reward model）的場(chǎng)景，o1就更能發(fā)揮優(yōu)勢(shì)。它通過反復(fù)推理和采樣找到最優(yōu)解，而獎(jiǎng)勵(lì)模型可以幫助它評(píng)估每個(gè)步驟的正確性，最終優(yōu)化出一個(gè)更合適的答案。因此，o1特別適合那些需要多層次決策和精確推理的復(fù)雜場(chǎng)景，而并非所有問題都適合用它來解決。

啟發(fā)七：LLMs創(chuàng)業(yè)不要在OpenAI炮火的覆蓋邊界里

這次o1會(huì)轟炸掉一批用LLMs做編程的項(xiàng)目、做醫(yī)療數(shù)據(jù)標(biāo)注的項(xiàng)目

做LLM-agent優(yōu)化大語言模型的幻覺問題的智能體也被轟炸了。

做大語言模型領(lǐng)域的創(chuàng)業(yè)產(chǎn)品，首先不要做OpenAI炮火覆蓋范圍內(nèi)的，但是可以做很多OpenAI 10年內(nèi)覆蓋不到的產(chǎn)品！

專欄作家

連詩路AI產(chǎn)品，公眾號(hào)：AI產(chǎn)品有思路。人人都是產(chǎn)品經(jīng)理專欄作家，《產(chǎn)品進(jìn)化論：AI+時(shí)代產(chǎn)品經(jīng)理的思維方法》一書作者，前阿里產(chǎn)品專家，希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Pixabay，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App