AI創(chuàng)業(yè)者的慘痛教訓(xùn):押注模型準(zhǔn)確性是產(chǎn)品陷阱,利用模型靈活性才是答案

0 評(píng)論 3632 瀏覽 1 收藏 16 分鐘

在AI創(chuàng)業(yè)領(lǐng)域,許多創(chuàng)業(yè)者曾將希望寄托于提升模型的準(zhǔn)確性,試圖通過復(fù)雜的工程設(shè)計(jì)來彌補(bǔ)模型的不足。然而,隨著AI技術(shù)的飛速發(fā)展,這種策略逐漸暴露出其局限性。本文將探討為什么押注模型的靈活性,而非單純的準(zhǔn)確性,才是AI產(chǎn)品成功的關(guān)鍵。通過分析不同類型的AI產(chǎn)品和應(yīng)用場(chǎng)景,文章揭示了靈活性如何幫助創(chuàng)業(yè)者更好地適應(yīng)模型的快速迭代,從而在競(jìng)爭(zhēng)激烈的市場(chǎng)中脫穎而出。

隨著越來越多AI產(chǎn)品落地,很多投資人心中都有一個(gè)疑問:

到底什么樣的AI應(yīng)用才值得投資?

關(guān)于這個(gè)問題,我們或許能在Andon Labs聯(lián)合創(chuàng)始人(YC 24W孵化)Lukas Petersson的一篇文章中找到答案。

最近,Lukas Petersson在YC Hacker News發(fā)布了一篇文章,內(nèi)容是其在調(diào)研了100多個(gè)YC校友項(xiàng)目并復(fù)盤了Richard Sutton著名的文章《痛苦的教訓(xùn)》后提出:

現(xiàn)在大量AI產(chǎn)品在當(dāng)前模型的局限性上投入過多精力,但從長(zhǎng)期看,創(chuàng)業(yè)公司更應(yīng)該押注那些能夠充分利用大模型自主性與靈活性的機(jī)會(huì)。

這個(gè)文章一經(jīng)發(fā)布就引發(fā)了廣泛的討論。今天,烏鴉君就為您編譯了這篇文章,以下是該文章的核心觀點(diǎn):

1)從歷史角度來看,通用方法總能在人工智能領(lǐng)域勝出。

2)現(xiàn)在人工智能應(yīng)用領(lǐng)域的創(chuàng)始人正在重蹈過去人工智能研究人員所犯的覆轍。

3)更出色的人工智能模型將催生通用型人工智能應(yīng)用。與此同時(shí),圍繞人工智能模型的軟件附加值將會(huì)減少。

01 通用方法總能勝出

2019年,理查德·薩頓(Richard Sutton)以如下文章作為其著名文章《痛苦的教訓(xùn)》的開篇:

“從70年的人工智能研究中可以得到的最大教訓(xùn)是,利用計(jì)算的通用方法最終是最有效的,而且優(yōu)勢(shì)巨大”。

他提到,在人工智能的發(fā)展歷程中,研究人員曾屢次嘗試將人類領(lǐng)域的知識(shí)融入系統(tǒng),進(jìn)而推動(dòng)AI技術(shù)進(jìn)步。

但后來大家發(fā)現(xiàn),一個(gè)擁有更強(qiáng)算力的系統(tǒng),效果遠(yuǎn)遠(yuǎn)好于其他精心設(shè)計(jì)的解決方案。這種趨勢(shì)并沒有停止,未來仍將延續(xù)。

這個(gè)《痛苦的教訓(xùn)》基于以下歷史觀察:

  1. 人工智能研究人員經(jīng)常試圖將知識(shí)構(gòu)建到他們的智能體中;
  2. 這在短期內(nèi)總是有幫助的,并且讓研究人員個(gè)人感到滿足;
  3. 但從長(zhǎng)遠(yuǎn)來看,它會(huì)停滯不前,甚至阻礙進(jìn)一步的進(jìn)步;
  4. 而突破性的進(jìn)展最終會(huì)通過一種基于擴(kuò)展計(jì)算資源的相反方法實(shí)現(xiàn)。

本文著眼于應(yīng)用層的人工智能產(chǎn)品,其中“更好”既指性能,也指市場(chǎng)接受度。更好的性能意味著處理更復(fù)雜的問題,從而釋放更多價(jià)值。

圖 1,不同類型的 AI 產(chǎn)品說明?

目前,人工智能產(chǎn)品通常是將人工智能模型封裝在某些配套軟件中。

你可以通過兩種方式提高其性能:

  1. 通過工程設(shè)計(jì):通過單一領(lǐng)域知識(shí)輸入,在軟件上實(shí)現(xiàn)特定的功能
  2. 通過更好的模型:等待人工智能實(shí)驗(yàn)室發(fā)布更強(qiáng)大的模型

對(duì)于創(chuàng)業(yè)者來說,這兩條路并不沖突。

但問題在于:隨著模型的改進(jìn),工程工作的價(jià)值會(huì)降低,甚至最后根本不用復(fù)雜的工程設(shè)計(jì),模型就能解決大部分問題。

圖2說明了在應(yīng)用層構(gòu)建 AI 產(chǎn)品時(shí)工程投入的回報(bào)遞減。隨著工程投入的增加和更好的模型的發(fā)布,價(jià)值也會(huì)減少

上圖顯示了隨著模型的改進(jìn),工程工作的價(jià)值如何降低。

當(dāng)前的模型存在很大的局限性,這意味著公司仍然可以從工程工作中獲得很多收益。

在YC校友演示日上,我看到很多產(chǎn)品都利用這點(diǎn)實(shí)現(xiàn)了成功。這些工程層面的成功大致可以分為兩類:

一類是產(chǎn)品已大規(guī)模投入生產(chǎn)(解決相對(duì)簡(jiǎn)單的問題)——目前來看是少數(shù);另一類則瞄準(zhǔn)稍微復(fù)雜的問題。第二類公司表現(xiàn)良好,因?yàn)樗麄兊母拍铗?yàn)證表明,通過足夠的工程努力,他們可以實(shí)現(xiàn)相應(yīng)的目標(biāo)。

但這些公司面臨的關(guān)鍵問題是:下一個(gè)模型發(fā)布是否會(huì)讓所有這些工程工作變得毫無意義,進(jìn)而徹底摧毀它們的競(jìng)爭(zhēng)優(yōu)勢(shì)?

OpenAI的o1模型的發(fā)布就說明了這種風(fēng)險(xiǎn)。

我和很多AI應(yīng)用的創(chuàng)始人聊過,他們都很擔(dān)心。因?yàn)樗麄冊(cè)趦?yōu)化提升上投入了大量的資源,但隨著o1發(fā)布,提示工程的重要性逐漸下降。

從本質(zhì)上講,這項(xiàng)工程努力旨在限制人工智能并減少其錯(cuò)誤。通過觀察許多解決方案,我發(fā)現(xiàn)了兩種主要類型的限制:

  1. 特異性:指的是解決方案的專注程度。垂直解決方案的配套軟件是為解決特定問題而構(gòu)建的。相比之下,通用型產(chǎn)品可以處理多種不同類型的問題。
  2. 自主性:衡量人工智能獨(dú)立運(yùn)作的程度。按Anthropic的術(shù)語,我們將其分為Workflow(LLM和工具遵循預(yù)定義代碼路徑的系統(tǒng))和Agent(LLM控制自身流程和工具的使用,自主決定如何完成任務(wù)的系統(tǒng))。

這兩種類型構(gòu)成了一個(gè)對(duì)人工智能產(chǎn)品進(jìn)行分類的框架:

表 1:著名AI產(chǎn)品分類

請(qǐng)注意,ChatGPT可能遵循每條消息的預(yù)定義代碼路徑,使其成為工作流而不是代理

讓我們來探索一下如何針對(duì)同一項(xiàng)任務(wù)實(shí)施每個(gè)類別:業(yè)務(wù)分析師制作投資路演幻燈片。以下是每種方法的一種可能方法:

  • Vertical workflow:固定的步驟順序:首先,對(duì)公司數(shù)據(jù)庫(kù)進(jìn)行RAG查詢,將其傳遞給小型LLM進(jìn)行匯總,然后傳遞給更強(qiáng)大的LLM,提取關(guān)鍵數(shù)字并使用計(jì)算器工具。LLM在編寫幻燈片內(nèi)容之前檢查這些數(shù)字是否有意義。最后,幻燈片生成器創(chuàng)建演示文稿。每次都按此順序運(yùn)行。
  • Vertical agent:LLM循環(huán)運(yùn)行,使用一次迭代的輸出作為下一次迭代的輸入。它可以訪問與工作流版本相同的工具,但自行決定何時(shí)使用它們。循環(huán)持續(xù)進(jìn)行,直到代理確定結(jié)果符合其質(zhì)量閾值。
  • Horizontal workflow:ChatGPT和類似工具可以協(xié)助完成部分任務(wù),但無法端到端地完成任務(wù)。它們既缺乏完成全部工作所需的專業(yè)化,也缺乏自主性。
  • Horizontal agent:Claude 計(jì)算機(jī)使用可以訪問標(biāo)準(zhǔn)的辦公軟件。分析師用自然語言提供指令,代理像人類一樣操作計(jì)算機(jī),根據(jù)需要調(diào)整其方法。

演示日上幾乎所有的產(chǎn)品都屬于垂直工作流程類別。這是有道理的——目前的模型對(duì)于其他方法來說不夠可靠。

即使是對(duì)于垂直Workflow而言過于復(fù)雜的問題,也被被迫采取這種模式。因?yàn)檫@是當(dāng)前模型能力下接近可接受性能的唯一方法。

雖然工程可以改進(jìn)這些解決方案,但它所能實(shí)現(xiàn)的效果有明顯的上限。對(duì)于當(dāng)前模型無法解決的問題,更好的策略是等待一個(gè)更強(qiáng)大的模型。

正如利奧波德·阿申布倫納 (Leopold Aschenbrenner)在《情境意識(shí)》中所說,對(duì)于許多問題,工程工作將比等待更好的模型花費(fèi)更長(zhǎng)的時(shí)間:

“看起來,這種拖延需要的時(shí)間會(huì)比放松需要的時(shí)間更長(zhǎng),也就是說,當(dāng)即插即用的遠(yuǎn)程工作者能夠自動(dòng)化大量工作時(shí),中間模型尚未得到充分利用和整合。”

這種模式聽起來應(yīng)該很熟悉。

人工智能研究人員反復(fù)嘗試設(shè)計(jì)出“可接受的性能”,但最終卻被更通用的解決方案所取代,而這些解決方案只需要更多的計(jì)算。

這與當(dāng)今人工智能產(chǎn)品的構(gòu)建方式驚人地相似。我們可以通過研究《痛苦的教訓(xùn)》如何應(yīng)用于我們提出的兩種約束類型,我們可以更清晰地理解這種聯(lián)系:

對(duì)于解決路徑不明確的問題,自主性更強(qiáng)的產(chǎn)品將取得更好的效果。同樣,在處理大型、復(fù)雜的輸入空間時(shí),特定性較低的產(chǎn)品將表現(xiàn)更好。

我們觀察到一種歷史模式:利用領(lǐng)域知識(shí)的垂直模型始終被利用計(jì)算的AI模型所取代。當(dāng)今的AI產(chǎn)品與這種模式有著驚人的相似之處。

在我看來,考慮到模型正在高速進(jìn)化,構(gòu)建軟件來彌補(bǔ)當(dāng)前模型的局限性,注定會(huì)失敗。

正如YC合伙人Jarred在Lightcone播客中所說:

“第一波LLM應(yīng)用程序(垂直工作流程)大多被下一代GPT打敗了?!?/p>

此前,Sam Altman也一再?gòu)?qiáng)調(diào),創(chuàng)業(yè)者應(yīng)該對(duì)更好的模型發(fā)布而感到興奮,而不是害怕。

我接觸的許多人工智能應(yīng)用層的創(chuàng)始人都對(duì)模型發(fā)布感到興奮,但實(shí)際上,如果從公司發(fā)展角度來說,對(duì)他們未必是一件好事。

因?yàn)樗麄兒雎粤艘患拢?/p>

更好的模型實(shí)際上可能會(huì)降低你的優(yōu)勢(shì),而不是增強(qiáng)它。當(dāng)然,從產(chǎn)品性能的角度看,也存在另一個(gè)可能——構(gòu)建能夠更有效地解決更困難問題的產(chǎn)品。

02 補(bǔ)充附錄

附錄A:《慘痛教訓(xùn)》統(tǒng)計(jì)圖

一種方法可以通過基本統(tǒng)計(jì)數(shù)據(jù)來理解《痛苦的教訓(xùn)》。在構(gòu)建模型時(shí),你通常會(huì)面臨一個(gè)權(quán)衡。你可以創(chuàng)建一個(gè)非常精確地處理問題的模型(高偏差),或許可以創(chuàng)建一個(gè)更靈活但更不可預(yù)測(cè)的模型(高方差)。

《痛苦的教訓(xùn)》建議選擇靈活的方法,因?yàn)槟P涂煽啃詥栴}可能用更多的算力和數(shù)據(jù)區(qū)解決。

回到現(xiàn)在,雖然垂直工作流程和特定約束能讓AI產(chǎn)品變得更加可靠,但限制了它最終能達(dá)到的水平。相比之下,讓AI更自由地運(yùn)作,在今天看來似乎有風(fēng)險(xiǎn),但隨著模型進(jìn)化總會(huì)找到更好的解決方案。

正如一直強(qiáng)調(diào)的觀點(diǎn):從歷史上看,押注靈活性一直是一種失敗的策略。

附錄 B:端到端與特征工程

圖 1:傳統(tǒng)機(jī)器學(xué)習(xí)需要手動(dòng)特征工程,而深度學(xué)習(xí)采用端到端方法。傳統(tǒng)方法需要人類定義數(shù)據(jù)中什么是重要的,而深度學(xué)習(xí)可以自行找出答案

傳統(tǒng)的機(jī)器學(xué)習(xí)需要人類來決定數(shù)據(jù)中什么是重要的。

你獲取原始輸入(如圖像),然后手動(dòng)提取有意義的模式或“特征”-例如計(jì)算特定形狀或測(cè)量某些屬性。

相比之下,深度學(xué)習(xí)會(huì)自動(dòng)學(xué)習(xí)這些模式。

圖 2:自動(dòng)駕駛汽車可視化顯示特征提取的實(shí)際操作。該系統(tǒng)識(shí)別并跟蹤特定物體,如汽車、行人和車道標(biāo)記。這代表了將復(fù)雜問題分解為更小、明確的部分的傳統(tǒng)方法

讓我們以自動(dòng)駕駛汽車為例。你可以通過兩種方式構(gòu)建它:

  1. 特征工程:將汽車所看到的東西分解成具體的部分——其他汽車在哪里、車道在哪里、行人移動(dòng)的速度有多快?
  2. 端到端:將原始視頻直接輸入神經(jīng)網(wǎng)絡(luò)并讓其弄清楚如何驅(qū)動(dòng)。

特征工程方法感覺更安全、更可控。這就是它在早期人工智能中占據(jù)主導(dǎo)地位的原因。

但正如喬治·霍茲所觀察到的:“如果人工智能的歷史教會(huì)了我們什么,那就是特征工程方法將永遠(yuǎn)被取代,并輸給端到端方法。”

圖 3:Sholto Douglas 的推文

這直接關(guān)系到我們對(duì)AI產(chǎn)品的討論。構(gòu)建垂直特定工具就像特征工程一樣——你要提前決定哪些信息是重要的。

當(dāng)你限制模型的自主性時(shí),你做的也是同樣的事情。

雖然這在今天可能效果更好,但歷史表明,從長(zhǎng)遠(yuǎn)來看,押注端到端方法將會(huì)獲勝。

本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說】,微信公眾號(hào):【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!