亚洲国产福利网，蜜桃午夜精品福利一区二区三区，久久午夜福利电影国产精品，精品精品男人的天堂国产，久久精品免费视频222，久久五月天久久久久电影院，国产成人天天在线视频，国产制服精品无码视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI創(chuàng)業(yè)者的慘痛教訓(xùn)：押注模型準(zhǔn)確性是產(chǎn)品陷阱，利用模型靈活性才是答案

烏鴉智能說

2025-01-31

0 評(píng)論 3632 瀏覽 1 收藏

16 分鐘

在AI創(chuàng)業(yè)領(lǐng)域，許多創(chuàng)業(yè)者曾將希望寄托于提升模型的準(zhǔn)確性，試圖通過復(fù)雜的工程設(shè)計(jì)來彌補(bǔ)模型的不足。然而，隨著AI技術(shù)的飛速發(fā)展，這種策略逐漸暴露出其局限性。本文將探討為什么押注模型的靈活性，而非單純的準(zhǔn)確性，才是AI產(chǎn)品成功的關(guān)鍵。通過分析不同類型的AI產(chǎn)品和應(yīng)用場(chǎng)景，文章揭示了靈活性如何幫助創(chuàng)業(yè)者更好地適應(yīng)模型的快速迭代，從而在競(jìng)爭(zhēng)激烈的市場(chǎng)中脫穎而出。

隨著越來越多AI產(chǎn)品落地，很多投資人心中都有一個(gè)疑問：

到底什么樣的AI應(yīng)用才值得投資？

關(guān)于這個(gè)問題，我們或許能在Andon Labs聯(lián)合創(chuàng)始人（YC 24W孵化）Lukas Petersson的一篇文章中找到答案。

最近，Lukas Petersson在YC Hacker News發(fā)布了一篇文章，內(nèi)容是其在調(diào)研了100多個(gè)YC校友項(xiàng)目并復(fù)盤了Richard Sutton著名的文章《痛苦的教訓(xùn)》后提出：

現(xiàn)在大量AI產(chǎn)品在當(dāng)前模型的局限性上投入過多精力，但從長(zhǎng)期看，創(chuàng)業(yè)公司更應(yīng)該押注那些能夠充分利用大模型自主性與靈活性的機(jī)會(huì)。

這個(gè)文章一經(jīng)發(fā)布就引發(fā)了廣泛的討論。今天，烏鴉君就為您編譯了這篇文章，以下是該文章的核心觀點(diǎn)：

1）從歷史角度來看，通用方法總能在人工智能領(lǐng)域勝出。

2）現(xiàn)在人工智能應(yīng)用領(lǐng)域的創(chuàng)始人正在重蹈過去人工智能研究人員所犯的覆轍。

3）更出色的人工智能模型將催生通用型人工智能應(yīng)用。與此同時(shí)，圍繞人工智能模型的軟件附加值將會(huì)減少。

01 通用方法總能勝出

2019年，理查德·薩頓（Richard Sutton）以如下文章作為其著名文章《痛苦的教訓(xùn)》的開篇：

“從70年的人工智能研究中可以得到的最大教訓(xùn)是，利用計(jì)算的通用方法最終是最有效的，而且優(yōu)勢(shì)巨大”。

他提到，在人工智能的發(fā)展歷程中，研究人員曾屢次嘗試將人類領(lǐng)域的知識(shí)融入系統(tǒng)，進(jìn)而推動(dòng)AI技術(shù)進(jìn)步。

但后來大家發(fā)現(xiàn)，一個(gè)擁有更強(qiáng)算力的系統(tǒng)，效果遠(yuǎn)遠(yuǎn)好于其他精心設(shè)計(jì)的解決方案。這種趨勢(shì)并沒有停止，未來仍將延續(xù)。

這個(gè)《痛苦的教訓(xùn)》基于以下歷史觀察：

人工智能研究人員經(jīng)常試圖將知識(shí)構(gòu)建到他們的智能體中；
這在短期內(nèi)總是有幫助的，并且讓研究人員個(gè)人感到滿足；
但從長(zhǎng)遠(yuǎn)來看，它會(huì)停滯不前，甚至阻礙進(jìn)一步的進(jìn)步；
而突破性的進(jìn)展最終會(huì)通過一種基于擴(kuò)展計(jì)算資源的相反方法實(shí)現(xiàn)。

本文著眼于應(yīng)用層的人工智能產(chǎn)品，其中“更好”既指性能，也指市場(chǎng)接受度。更好的性能意味著處理更復(fù)雜的問題，從而釋放更多價(jià)值。

圖 1，不同類型的 AI 產(chǎn)品說明?

目前，人工智能產(chǎn)品通常是將人工智能模型封裝在某些配套軟件中。

你可以通過兩種方式提高其性能：

通過工程設(shè)計(jì)：通過單一領(lǐng)域知識(shí)輸入，在軟件上實(shí)現(xiàn)特定的功能
通過更好的模型：等待人工智能實(shí)驗(yàn)室發(fā)布更強(qiáng)大的模型

對(duì)于創(chuàng)業(yè)者來說，這兩條路并不沖突。

但問題在于：隨著模型的改進(jìn)，工程工作的價(jià)值會(huì)降低，甚至最后根本不用復(fù)雜的工程設(shè)計(jì)，模型就能解決大部分問題。

圖2說明了在應(yīng)用層構(gòu)建 AI 產(chǎn)品時(shí)工程投入的回報(bào)遞減。隨著工程投入的增加和更好的模型的發(fā)布，價(jià)值也會(huì)減少

上圖顯示了隨著模型的改進(jìn)，工程工作的價(jià)值如何降低。

當(dāng)前的模型存在很大的局限性，這意味著公司仍然可以從工程工作中獲得很多收益。

在YC校友演示日上，我看到很多產(chǎn)品都利用這點(diǎn)實(shí)現(xiàn)了成功。這些工程層面的成功大致可以分為兩類：

一類是產(chǎn)品已大規(guī)模投入生產(chǎn)（解決相對(duì)簡(jiǎn)單的問題）——目前來看是少數(shù)；另一類則瞄準(zhǔn)稍微復(fù)雜的問題。第二類公司表現(xiàn)良好，因?yàn)樗麄兊母拍铗?yàn)證表明，通過足夠的工程努力，他們可以實(shí)現(xiàn)相應(yīng)的目標(biāo)。

但這些公司面臨的關(guān)鍵問題是：下一個(gè)模型發(fā)布是否會(huì)讓所有這些工程工作變得毫無意義，進(jìn)而徹底摧毀它們的競(jìng)爭(zhēng)優(yōu)勢(shì)？

OpenAI的o1模型的發(fā)布就說明了這種風(fēng)險(xiǎn)。

我和很多AI應(yīng)用的創(chuàng)始人聊過，他們都很擔(dān)心。因?yàn)樗麄冊(cè)趦?yōu)化提升上投入了大量的資源，但隨著o1發(fā)布，提示工程的重要性逐漸下降。

從本質(zhì)上講，這項(xiàng)工程努力旨在限制人工智能并減少其錯(cuò)誤。通過觀察許多解決方案，我發(fā)現(xiàn)了兩種主要類型的限制：

特異性：指的是解決方案的專注程度。垂直解決方案的配套軟件是為解決特定問題而構(gòu)建的。相比之下，通用型產(chǎn)品可以處理多種不同類型的問題。
自主性：衡量人工智能獨(dú)立運(yùn)作的程度。按Anthropic的術(shù)語，我們將其分為Workflow（LLM和工具遵循預(yù)定義代碼路徑的系統(tǒng)）和Agent（LLM控制自身流程和工具的使用，自主決定如何完成任務(wù)的系統(tǒng)）。

這兩種類型構(gòu)成了一個(gè)對(duì)人工智能產(chǎn)品進(jìn)行分類的框架：

表 1：著名AI產(chǎn)品分類

請(qǐng)注意，ChatGPT可能遵循每條消息的預(yù)定義代碼路徑，使其成為工作流而不是代理

讓我們來探索一下如何針對(duì)同一項(xiàng)任務(wù)實(shí)施每個(gè)類別：業(yè)務(wù)分析師制作投資路演幻燈片。以下是每種方法的一種可能方法：

Vertical workflow：固定的步驟順序：首先，對(duì)公司數(shù)據(jù)庫(kù)進(jìn)行RAG查詢，將其傳遞給小型LLM進(jìn)行匯總，然后傳遞給更強(qiáng)大的LLM，提取關(guān)鍵數(shù)字并使用計(jì)算器工具。LLM在編寫幻燈片內(nèi)容之前檢查這些數(shù)字是否有意義。最后，幻燈片生成器創(chuàng)建演示文稿。每次都按此順序運(yùn)行。
Vertical agent：LLM循環(huán)運(yùn)行，使用一次迭代的輸出作為下一次迭代的輸入。它可以訪問與工作流版本相同的工具，但自行決定何時(shí)使用它們。循環(huán)持續(xù)進(jìn)行，直到代理確定結(jié)果符合其質(zhì)量閾值。
Horizontal workflow：ChatGPT和類似工具可以協(xié)助完成部分任務(wù)，但無法端到端地完成任務(wù)。它們既缺乏完成全部工作所需的專業(yè)化，也缺乏自主性。
Horizontal agent：Claude 計(jì)算機(jī)使用可以訪問標(biāo)準(zhǔn)的辦公軟件。分析師用自然語言提供指令，代理像人類一樣操作計(jì)算機(jī)，根據(jù)需要調(diào)整其方法。

演示日上幾乎所有的產(chǎn)品都屬于垂直工作流程類別。這是有道理的——目前的模型對(duì)于其他方法來說不夠可靠。

即使是對(duì)于垂直Workflow而言過于復(fù)雜的問題，也被被迫采取這種模式。因?yàn)檫@是當(dāng)前模型能力下接近可接受性能的唯一方法。

雖然工程可以改進(jìn)這些解決方案，但它所能實(shí)現(xiàn)的效果有明顯的上限。對(duì)于當(dāng)前模型無法解決的問題，更好的策略是等待一個(gè)更強(qiáng)大的模型。

正如利奧波德·阿申布倫納 (Leopold Aschenbrenner)在《情境意識(shí)》中所說，對(duì)于許多問題，工程工作將比等待更好的模型花費(fèi)更長(zhǎng)的時(shí)間：

“看起來，這種拖延需要的時(shí)間會(huì)比放松需要的時(shí)間更長(zhǎng)，也就是說，當(dāng)即插即用的遠(yuǎn)程工作者能夠自動(dòng)化大量工作時(shí)，中間模型尚未得到充分利用和整合。”

這種模式聽起來應(yīng)該很熟悉。

人工智能研究人員反復(fù)嘗試設(shè)計(jì)出“可接受的性能”，但最終卻被更通用的解決方案所取代，而這些解決方案只需要更多的計(jì)算。

這與當(dāng)今人工智能產(chǎn)品的構(gòu)建方式驚人地相似。我們可以通過研究《痛苦的教訓(xùn)》如何應(yīng)用于我們提出的兩種約束類型，我們可以更清晰地理解這種聯(lián)系：

對(duì)于解決路徑不明確的問題，自主性更強(qiáng)的產(chǎn)品將取得更好的效果。同樣，在處理大型、復(fù)雜的輸入空間時(shí)，特定性較低的產(chǎn)品將表現(xiàn)更好。

我們觀察到一種歷史模式：利用領(lǐng)域知識(shí)的垂直模型始終被利用計(jì)算的AI模型所取代。當(dāng)今的AI產(chǎn)品與這種模式有著驚人的相似之處。

在我看來，考慮到模型正在高速進(jìn)化，構(gòu)建軟件來彌補(bǔ)當(dāng)前模型的局限性，注定會(huì)失敗。

正如YC合伙人Jarred在Lightcone播客中所說：

“第一波LLM應(yīng)用程序（垂直工作流程）大多被下一代GPT打敗了?！?/p>

此前，Sam Altman也一再?gòu)?qiáng)調(diào)，創(chuàng)業(yè)者應(yīng)該對(duì)更好的模型發(fā)布而感到興奮，而不是害怕。

我接觸的許多人工智能應(yīng)用層的創(chuàng)始人都對(duì)模型發(fā)布感到興奮，但實(shí)際上，如果從公司發(fā)展角度來說，對(duì)他們未必是一件好事。

因?yàn)樗麄兒雎粤艘患拢?/p>

更好的模型實(shí)際上可能會(huì)降低你的優(yōu)勢(shì)，而不是增強(qiáng)它。當(dāng)然，從產(chǎn)品性能的角度看，也存在另一個(gè)可能——構(gòu)建能夠更有效地解決更困難問題的產(chǎn)品。

02 補(bǔ)充附錄

附錄A：《慘痛教訓(xùn)》統(tǒng)計(jì)圖

一種方法可以通過基本統(tǒng)計(jì)數(shù)據(jù)來理解《痛苦的教訓(xùn)》。在構(gòu)建模型時(shí)，你通常會(huì)面臨一個(gè)權(quán)衡。你可以創(chuàng)建一個(gè)非常精確地處理問題的模型（高偏差），或許可以創(chuàng)建一個(gè)更靈活但更不可預(yù)測(cè)的模型（高方差）。

《痛苦的教訓(xùn)》建議選擇靈活的方法，因?yàn)槟Ｐ涂煽啃詥栴}可能用更多的算力和數(shù)據(jù)區(qū)解決。

回到現(xiàn)在，雖然垂直工作流程和特定約束能讓AI產(chǎn)品變得更加可靠，但限制了它最終能達(dá)到的水平。相比之下，讓AI更自由地運(yùn)作，在今天看來似乎有風(fēng)險(xiǎn)，但隨著模型進(jìn)化總會(huì)找到更好的解決方案。

正如一直強(qiáng)調(diào)的觀點(diǎn)：從歷史上看，押注靈活性一直是一種失敗的策略。