一区二区不卡 AV，亚洲AV无码乱码精品国产，欧美亚洲综合精品自拍，亚洲665566综合无码，精品国产国产在线视，国产又粗又猛又大爽色婷婷，无码专区日韩亚洲精品，日韩免费AV乱码高清专区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

GPT-4不知道自己錯(cuò)了！LLM新缺陷曝光，自我糾正成功率僅1%，LeCun馬庫(kù)斯驚呼越改越錯(cuò)

新智元

2023-10-23

0 評(píng)論 2328 瀏覽 1 收藏

🔗 产品经理的职业发展路径主要有四个方向：专业线、管理线、项目线和自主创业。管理线是指转向管理岗位，带一个团队..

就在最近，有研究發(fā)現(xiàn)，LLM在推理任務(wù)中，自我糾正后可能無(wú)法挽救性能變差。這則消息也引起了不少業(yè)內(nèi)人士的關(guān)注。具體如何理解？一起來(lái)看看本文的解讀。

大模型又被爆出重大缺陷，引得LeCun和馬庫(kù)斯兩位大佬同時(shí)轉(zhuǎn)發(fā)關(guān)注！

在推理實(shí)驗(yàn)中，聲稱可以提高準(zhǔn)確性的模型自我糾正，把正確率從16%「提高」到了1%！

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

查看详情 >

簡(jiǎn)單來(lái)說(shuō)，就是LLM在推理任務(wù)中，無(wú)法通過(guò)自我糾正的形式來(lái)改進(jìn)輸出，除非LLM在自我糾正的過(guò)程中已經(jīng)知道了正確答案。

由ASU研究人員發(fā)表的兩篇論文，駁斥了之前很多研究提出的方法「自我糾正」——讓大模型對(duì)自己的輸出的結(jié)果進(jìn)行自我糾正，就能提高模型的輸出質(zhì)量。

論文地址：https://arxiv.org/abs/2310.12397

論文地址：https://arxiv.org/abs/2310.08118

論文的共同作者Subbarao Kambhampati教授，一直致力于AI推理能力的相關(guān)研究，9月份就發(fā)表過(guò)一篇論文，甚至全盤否定了GPT-4的推理和規(guī)劃能力。

論文地址：https://arxiv.org/pdf/2206.10498.pdf

而除了這位教授之外，最近DeepMind和UIUC大學(xué)的研究者，也針對(duì)LLM在推理任務(wù)中的「自我糾正」的能力提出了質(zhì)疑。

這篇論文甚至呼吁，所有做相關(guān)研究的學(xué)者，請(qǐng)嚴(yán)肅對(duì)待你們的研究，不要把正確答案告訴大模型之后再讓它進(jìn)行所謂的「自我糾正」。

因?yàn)槿绻Ｐ筒恢勒_答案的話，模型「自我糾正」之后輸出質(zhì)量反而會(huì)下降。

https://arxiv.org/abs/2310.01798

接下來(lái)，就具體來(lái)看看這兩篇最新論文。

一、GPT-4「自我糾正」，輸出結(jié)果反而更差

第一篇論文針對(duì)GPT-4進(jìn)行研究，讓GPT-4對(duì)圖形著色問(wèn)題提供解決方案，然后讓GPT-4對(duì)于自己提出方案進(jìn)行「自我糾正」。

同時(shí)，作者再引入一個(gè)外部的評(píng)估系統(tǒng)對(duì)GPT-4的直接輸出，和經(jīng)過(guò)了「自我糾正」循環(huán)之后的輸出進(jìn)行評(píng)價(jià)。

實(shí)驗(yàn)結(jié)果顯示，GPT-4在猜測(cè)顏色方面的準(zhǔn)確率還不到20%，這個(gè)數(shù)值似乎并不讓人意外。

但令人驚訝的是，「自我糾正」模式下的準(zhǔn)確性卻大幅下降（下圖第二根柱狀條）——與所有自我糾正本意完全背道而馳！

作者認(rèn)為，這種看似反直覺(jué)的情況可以這么解釋：GPT-4在驗(yàn)證正確答案的表現(xiàn)也很糟糕！

因?yàn)榧词巩?dāng)GPT-4偶然猜到正確顏色時(shí)，它的「自我糾正」會(huì)使它覺(jué)得正確答案是有問(wèn)題的，然后就把正確答案給替換掉了。

通過(guò)進(jìn)一步研究后還發(fā)現(xiàn)：如果外部驗(yàn)證器給GPT-4猜測(cè)出的顏色提供了可以被證實(shí)的正確答案，GPT-4確實(shí)會(huì)改進(jìn)它的解決方案。

在這種情況下，經(jīng)過(guò)「自我糾正」產(chǎn)生的提示詞，確實(shí)可以提高輸出結(jié)果的質(zhì)量（上圖的第3-5根柱狀圖）

總結(jié)來(lái)看，就是對(duì)于「著色問(wèn)題」任務(wù)，GPT-4獨(dú)立的「自我糾正」反而會(huì)損害輸出的性能，因?yàn)镚PT-4沒(méi)法驗(yàn)證答案是否正確。

但是如果能提供外部的正確驗(yàn)證過(guò)程，GPT-4生成的「自我糾正」確實(shí)能提升性能。

而另一篇論文，從規(guī)劃任務(wù)的角度來(lái)研究了大語(yǔ)言模型「自我糾正」的能力，研究結(jié)果也和上一篇論文類似。

而且，研究人員發(fā)現(xiàn)，真正能提高輸出準(zhǔn)確性的不是LLM的「自我糾正」，而是外部獨(dú)立驗(yàn)證器的反饋。

歸根結(jié)底，還是在于LLM沒(méi)有辦法進(jìn)行獨(dú)立的驗(yàn)證，必須依賴外部的驗(yàn)證器給出的「正確答案」，才能有效地進(jìn)行「自我糾正」。

二、「著色問(wèn)題」表現(xiàn)不佳，LLM無(wú)法獨(dú)立驗(yàn)證正確答案

1. 研究設(shè)計(jì)框架

「著色問(wèn)題」是非常經(jīng)典的推理問(wèn)題，即使難度不大，答案也足夠多樣性，而且答案的正確性很容易進(jìn)行驗(yàn)證。

多樣性的結(jié)果使得LLM的訓(xùn)練數(shù)據(jù)很難覆蓋全，盡量避免了LLM的訓(xùn)練數(shù)據(jù)被污染的可能。

這些原因使得「著色問(wèn)題」很適合用來(lái)研究LLM的推理能力，也很方便用來(lái)研究LLM在推理中「自我糾正」的能力。

研究人員構(gòu)建了自己的數(shù)據(jù)集，使用GrinPy2來(lái)處理常見(jiàn)的圖操作。每個(gè)圖都是使用Erdos-Rényi方法（ ?p = 0.4）構(gòu)造的。

一旦找到正確的答案，它就會(huì)被編譯成標(biāo)準(zhǔn)的DIMACS格式，并附加上一個(gè)包含其預(yù)計(jì)算的色數(shù)（chromatic number）的注釋。

對(duì)于接下來(lái)的實(shí)驗(yàn)，研究人員生成了100個(gè)實(shí)例，每個(gè)實(shí)例平均有24條邊，分布在從10到17的節(jié)點(diǎn)數(shù)范圍內(nèi)——這一分布是因?yàn)榻?jīng)驗(yàn)顯示，它是一個(gè)表現(xiàn)足夠多變的范圍。

研究人員使用的圖例如下圖1所示，這個(gè)流程包括LLM的第一次回復(fù)、該回復(fù)的返回提示（backprompt）以及最終正確的圖色方案。

2. 迭代返回提示（Iterative Backprompting）的架構(gòu)

提示生成器（Prompt Generator）：

這個(gè)提示詞生成器會(huì)選取一個(gè)DIMACS實(shí)例，并將每條邊翻譯成一個(gè)句子，然后將整體包裹在一組通用指令中，從而構(gòu)造出一個(gè)自然語(yǔ)言提示詞。

研究人員有意縮小不同實(shí)例提示之間的差異，以減少研究人員向LLM泄露的問(wèn)題特定信息。各種類型提示的示例可以在附錄中找到。

大型語(yǔ)言模型：

通過(guò)OpenAI API來(lái)調(diào)用GPT-4，這是當(dāng)前最先進(jìn)的模型。

研究人員提供一個(gè)系統(tǒng)角色：「你是一個(gè)解決各種CSP（約束滿足問(wèn)題）的約束滿足求解器」。

3. 返回提示詞生成（Backprompt Generation）

在驗(yàn)證模式下，LLM收到一種不同類型的提示。

除了標(biāo)準(zhǔn)指令外，它只包含圖的描述和建議的著色方案。它的任務(wù)是驗(yàn)證正確性、最優(yōu)性以及每個(gè)頂點(diǎn)是否都已經(jīng)被涂上了一個(gè)顏色。

如果生成的回復(fù)中有一組邊是矛盾的，那著色方案就是錯(cuò)誤的。

為了比較每個(gè)點(diǎn)，研究人員還構(gòu)建了一個(gè)能夠列出每一條矛盾邊的驗(yàn)證器。

由于LLM的響應(yīng)也是自然語(yǔ)言形式的，研究人員首先將它們翻譯成便于分析的格式。為了使這個(gè)過(guò)程更加一致，研究人員設(shè)計(jì)了最初的提示，以描述一個(gè)模型需要遵循的精確輸出格式。然后，該響應(yīng)會(huì)被評(píng)估其正確性。

為了判斷LLM驗(yàn)證結(jié)果，研究人員會(huì)檢查它們?cè)谡页鼋ㄗh的著色方案中的錯(cuò)誤方面表現(xiàn)如何。

直觀地說(shuō)，這些應(yīng)該很容易識(shí)別：如果組成一個(gè)邊的兩個(gè)頂點(diǎn)共享一個(gè)顏色，立即返回該邊。從算法角度看，只需要檢測(cè)所有的邊并比較每個(gè)頂點(diǎn)的顏色與其連接點(diǎn)的顏色即可。

4. 驗(yàn)證

為了更深入了解LLM的驗(yàn)證能力，研究人員研究了它們?cè)谡页鎏岢龅闹桨钢械腻e(cuò)誤方面的表現(xiàn)。

直觀來(lái)說(shuō)，這些錯(cuò)誤應(yīng)該很容易識(shí)別：如果組成一個(gè)邊的兩個(gè)頂點(diǎn)共享一個(gè)顏色，則立即返回該邊。從算法角度來(lái)看，所有需要做的就是遍歷所有邊，并將每個(gè)頂點(diǎn)的顏色與其對(duì)應(yīng)頂點(diǎn)的顏色進(jìn)行比較。

研究人員使用相同的分析流程，但構(gòu)建了一個(gè)研究人員稱為color_verification的新域。LLM被引導(dǎo)去檢查著色的正確性、最優(yōu)性以及是否每個(gè)頂點(diǎn)都已經(jīng)被賦予了一個(gè)顏色。

如果著色是不正確的，它被指示列出著色中的錯(cuò)誤，即如果兩個(gè)連接的節(jié)點(diǎn)共享一種顏色，就返回該邊以表示該錯(cuò)誤。沒(méi)有給出返回提示（backprompts）。

研究人員使用之前相同的圖實(shí)例，但生成了四種用于測(cè)試模型的著色方案：

正確（Correct）：通過(guò)迭代的、隨機(jī)的貪婪算法生成的沒(méi)有錯(cuò)誤的最優(yōu)著色方案（使用預(yù)先計(jì)算的色數(shù)以確保最優(yōu)性）。

缺失（Ablated）：將先前一組著色方案中的一個(gè)隨機(jī)節(jié)點(diǎn)改變?yōu)槠溧従拥念伾?/p>

非最優(yōu)（Non-optimal）：在正確的集合中，隨機(jī)選擇一個(gè)顏色部分重新著色為一個(gè)新的色調(diào)。

隨機(jī)（Random）：完全隨機(jī)分配的顏色，不同顏色的數(shù)量等于圖的色數(shù)。

LLM：從先前實(shí)驗(yàn)中LLM生成的輸出中隨機(jī)選取的著色方案。

5. 結(jié)論

對(duì)LLM進(jìn)行提示、評(píng)估答案，并在沒(méi)有任何返回提示（backprompts）的情況下就會(huì)進(jìn)入下一個(gè)實(shí)例，得到的基線分?jǐn)?shù)為16%。

當(dāng)研究人員運(yùn)行相同的實(shí)例，但這次使用由相同的語(yǔ)言模型充當(dāng)驗(yàn)證者生成的反饋進(jìn)行返回提示時(shí)，性能急劇下降——100個(gè)實(shí)例中只有一個(gè)得到了正確的回答。

與外部合格的驗(yàn)證器進(jìn)行返回提示的結(jié)果起初看似更有效果。

正確回答的實(shí)例數(shù)量接近40%，但如果這意味著GPT-4在聽(tīng)取、改進(jìn)，并根據(jù)反饋進(jìn)行推理，那么研究人員期望更準(zhǔn)確的返回提示會(huì)帶來(lái)更好的結(jié)果。

然而，在這個(gè)域中，原始分?jǐn)?shù)（見(jiàn)上圖2）并沒(méi)有證明這一點(diǎn)。

6. LLM的驗(yàn)證能力

研究人員測(cè)試了GPT-4在相同實(shí)例上驗(yàn)證圖著色方案的能力，為每種實(shí)例生成了五種不同類型的著色方案。

明顯的結(jié)果是，與上面的LLM自我糾正結(jié)果完全一致：模型幾乎不愿將任何答案標(biāo)記為正確。在100個(gè)最優(yōu)著色方案中，它只同意其中2個(gè)是正確的。

整個(gè)500個(gè)著色方案的集合，其中118個(gè)是正確的，它只聲稱其中30個(gè)是正確的。在這30個(gè)中，其實(shí)只有5次是正確的。

總體而言，這一模式保持不變。在不到10%的案例中，LLM給出了「正確」、「非最優(yōu)」或「缺少賦值」的反應(yīng)。在這些情況中，行為看似有些隨機(jī)。

在大約四分之一的實(shí)例中，它用「這是不正確的」驗(yàn)證作出回應(yīng)，而解釋與現(xiàn)實(shí)相符，而且它只通過(guò)指明不超過(guò)一個(gè)邊來(lái)實(shí)現(xiàn)這一點(diǎn)，從而最小化了錯(cuò)誤陳述某事的機(jī)會(huì)。

結(jié)果如上表2所示。請(qǐng)注意，當(dāng)域的錯(cuò)誤率增加時(shí)，幻覺(jué)比例下降。也就是說(shuō)，當(dāng)有更多的不正確的邊時(shí)，模型更有可能指出其中出錯(cuò)的情況。

三、LLM自我批評(píng)，性能不增反減

在12日提交的論文中，作者同樣得出了與上面一致的結(jié)論。

無(wú)論是規(guī)劃，還是簡(jiǎn)單的算術(shù)或邏輯，當(dāng)前最先進(jìn)的大模型GPT-4也無(wú)法完全勝任。

許多研究人員對(duì)其進(jìn)行了許多的探索和改進(jìn)，其中就包括讓LLM學(xué)會(huì)自我迭代、自我驗(yàn)證等策略來(lái)提升性能。

由此，業(yè)界人們樂(lè)觀地認(rèn)為，大模型還有救！

然而，經(jīng)典意義上的推理任務(wù)復(fù)雜性與大模型無(wú)關(guān)，因?yàn)長(zhǎng)LM是采用近似檢索而非精確推理的模型。

在12日提交arXiv的論文中，ASU研者系統(tǒng)地評(píng)估和分析LLM在規(guī)劃任務(wù)中的自我批評(píng)，以及迭代優(yōu)化的能力。

研究中，作者提出了一個(gè)包含生成器LLM和驗(yàn)證器LLM的規(guī)劃系統(tǒng)。

其中，GPT-4生成器負(fù)責(zé)生成候選計(jì)劃，GPT-4驗(yàn)證器負(fù)責(zé)驗(yàn)證計(jì)劃的正確性并提供反饋。

然后，研究人員在Blocksworld規(guī)劃領(lǐng)域上進(jìn)行了實(shí)驗(yàn)，并對(duì)以下方面進(jìn)行了實(shí)證評(píng)估：

自我批評(píng)對(duì)整個(gè)LLM+LLM系統(tǒng)的計(jì)劃生成性能的影響；
驗(yàn)證器LLM相對(duì)于地面真值驗(yàn)證的性能；
在批評(píng)LLM生成時(shí)，同反饋級(jí)別對(duì)整體系統(tǒng)性能的影響。

結(jié)果表明，與使用外部可靠的驗(yàn)證器相比，自我批評(píng)會(huì)降低LLM規(guī)劃生成性能。

性能下降可以直接歸因于驗(yàn)證器LLM的糟糕結(jié)果，驗(yàn)證器LLM產(chǎn)生了大量的假陽(yáng)性，這可能嚴(yán)重?fù)p害系統(tǒng)的可靠性。

驗(yàn)證器LLM的二元分類準(zhǔn)確率僅為61%，存在大量的假陽(yáng)性（將錯(cuò)誤規(guī)劃判斷為正確）。

另外，根據(jù)反饋的詳細(xì)程度對(duì)比，發(fā)現(xiàn)其對(duì)規(guī)劃生成性能影響不大。

總的來(lái)說(shuō)，這項(xiàng)研究的系統(tǒng)調(diào)查提供了初步證據(jù)，對(duì)于LLM作為迭代、自我批評(píng)框架內(nèi)規(guī)劃任務(wù)驗(yàn)證者的有效性提出質(zhì)疑。

作者介紹：

Subbarao Kambhampati

Subbarao Kambhampati是亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授。Kambhampati研究規(guī)劃和決策中的基本問(wèn)題，特別是受人類感知人工智能系統(tǒng)挑戰(zhàn)的推動(dòng)。

參考資料：

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

編輯：桃子，潤(rùn)

來(lái)源公眾號(hào)：新智元（ID：AI_era），“智能+”中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

105篇作品 262043總閱讀量

創(chuàng)投型企業(yè)，如何從0-1設(shè)計(jì)交互鏈路

12-182060 瀏覽

信息差賺錢| 年入千萬(wàn)的大佬告訴我，3個(gè)提升賺錢能力的方法

10-254532 瀏覽

成功B端产品经理的年终总结秘诀：掌握这几个技巧！

刚刚

Gemini的展示是剪輯造假？我們親測(cè)了一下，發(fā)現(xiàn)…

12-093587 瀏覽

18元10萬(wàn)贊，直播間人氣全靠刷

03-163721 瀏覽

?時(shí)代變了，電商產(chǎn)品經(jīng)理的能力模型也發(fā)生了變化，你跟上了么?

09-211086 瀏覽

評(píng)論

目前還沒(méi)評(píng)論，等你發(fā)揮！

小公司，无人指导，我如何通过自我学习掌握业务？

如何理解產(chǎn)品設(shè)計(jì)中的意向性？

05-245130 瀏覽
Temu的分水嶺時(shí)刻：有人剎車，有人加注

01-052068 瀏覽
“百模大戰(zhàn)”即將迎來(lái)一輪應(yīng)用淘汰賽

08-043014 瀏覽

本专题的文章分享了供应链系统设计指南。

透过别人的项目总结，学习项目管理项目设计项目流程经验。

专题

13055人已学习13篇文章

产品异常场景设计指南

产品设计与用户的体验感息息相关，但是很多时候产品经理在产品设计过程中会忽略掉可能影响到用户体验感的一些因素，比如一些异常状态的出现会让用户产品卸载的想法。本专题的文章分享了产品异常场景设计指南。

新媒体运营，多的是你不知道的事！

让懒人真正”懒”起来才是O2O。

如今随着商业的发展，消费者与品牌建立起了更深的联系，商务活动也开始以消费者为中心，所以消费者的体验以及建议就非常重要。本专题的文章分享了消费者行为学。

2021亚洲中文字幕在线第99,日韩一级无码国产精品,日韩精品无码一级毛片免费丿,免费在线观看毛片黄片亚太影院柯西贝尔-游戏赚网

GPT-4不知道自己錯(cuò)了！LLM新缺陷曝光，自我糾正成功率僅1%，LeCun馬庫(kù)斯驚呼越改越錯(cuò)

一、GPT-4「自我糾正」，輸出結(jié)果反而更差

二、「著色問(wèn)題」表現(xiàn)不佳，LLM無(wú)法獨(dú)立驗(yàn)證正確答案