99九九99九九视频精品，久久国产AV影片，欧美xxxx在线视频，亚洲性人人天天夜夜摸，亚洲欧洲自拍拍偷精品网314，草碰免费公开视频在线观看，色婷婷五月最新网站，性无码专区AV百花

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

“GPT-4變傻”不只是OpenAI的苦惱，所有大模型與人類交往越久就會越蠢？

硅星人

2024-01-04

0 評論 4610 瀏覽 3 收藏

12 分鐘

最近幾個月，有關(guān)GPT-4“變笨”了的感受言論在網(wǎng)絡平臺上還挺常見的，而對GPT-4“變笨”的原因，許多用戶也給出了自己的猜測。最近，有論文研究給出了解釋，一起來看看吧。

ChatGPT發(fā)布一年多，已經(jīng)在全世界累積了超過1.8億用戶。而隨著越來越多的人們開始頻繁使用它，近幾個月關(guān)于GPT-4在“變笨”、“變懶”的說法不絕于耳。

大家發(fā)現(xiàn)這個昔日大聰明在回答提問時逐漸失去了最初的理解力和準確性，時不時給出“驢唇不對馬嘴”的答案，或是干脆擺爛、拒絕回答。

對于GPT-4降智的原因，用戶們有許多自己的猜測。而最近，來自加州大學圣克魯茲分校的一篇論文，給出了學術(shù)界的最新解釋。

「我們發(fā)現(xiàn)，在LLM訓練數(shù)據(jù)創(chuàng)建日期之前發(fā)布的數(shù)據(jù)集上，LLM的表現(xiàn)出奇地好于之后的數(shù)據(jù)集。」

eLLM訓練數(shù)據(jù)收集日期之前和之后發(fā)布的數(shù)據(jù)集，對零樣本（藍色）和少樣本（綠色）任務的準確率對比。

也就是說，大模型在它們之前“見過”的任務上表現(xiàn)優(yōu)秀，在新任務上則相對拉垮。這更像是一種檢索的模擬智能方法，回答問題全靠記，而非純粹基于學習理解能力。

因此論文認為，許多大模型在處理早期數(shù)據(jù)時展現(xiàn)出的優(yōu)異表現(xiàn)，實際上是受到了「任務污染」的影響。

我們知道，大語言模型之所以強大，是因為在各種零樣本和少樣本任務中表現(xiàn)出色，顯示出處理復雜和多樣化問題的靈活性。

而「任務污染」就是一種對零樣本或少樣本評估方法的污染，指在預訓練數(shù)據(jù)中已包含了任務訓練示例——你以為GPT初次回答就這么得心應手？No！其實它在訓練過程中就已經(jīng)“見過”這些數(shù)據(jù)了。

一、評估的模型與數(shù)據(jù)集

由于封閉模型不會公開訓練數(shù)據(jù)，開放模型也僅提供了數(shù)據(jù)源，爬取網(wǎng)站去獲取數(shù)據(jù)并非易事，所以想簡單驗證是困難的。

為了實測任務污染的范圍，論文中共評估了12種不同的模型，包括5個GPT-3系列封閉模型和Fairseq MoE、Bloom、LLaMA等7個開放模型，并列出訓練集創(chuàng)建和模型發(fā)布日期。

在數(shù)據(jù)集上則劃分為兩類：2021年之前和2021年之后發(fā)布的數(shù)據(jù)集。以此來對比新老數(shù)據(jù)集之間的零樣本或少樣本任務性能差異。

二、四種測量方法

基于以上樣本，研究人員采用了四種方法來衡量大模型的任務污染范圍。

1. 訓練數(shù)據(jù)檢查：直接搜索訓練數(shù)據(jù)以找到任務訓練示例。

發(fā)現(xiàn)經(jīng)過微調(diào)的Llama模型Alpaca和Vicuna，在訓練中加入少量任務示例后，對比原版Llama性能有所提升。

2. 任務示例提取：從現(xiàn)有模型中提取任務示例。

具體方法是通過提示詞指令，讓模型生成訓練示例。由于在零樣本或少樣本評估中，模型本不應該接受任何任務示例訓練，所以只要LLM能夠根據(jù)提示生成訓練示例，就是任務污染的證據(jù)。

結(jié)果發(fā)現(xiàn)，從GPT-3第一代davinci-001到后來的3.5-T，代表可以生成訓練示例的紅色X越來越多了，證明任務污染越發(fā)嚴重。

3. 成員身份推斷：僅適用于生成任務，核心是檢查模型為輸入示例生成的內(nèi)容是否與原始數(shù)據(jù)集完全相同。如果一致，就可以認定這個示例是LLM訓練數(shù)據(jù)的成員。

因為如果在開放式生成任務中出現(xiàn)這種精準匹配，那模型無異于具備了預知能力，能準確復現(xiàn)數(shù)據(jù)集中的具體措辭，表現(xiàn)可以說是“天秀”了，這就強烈暗示了模型在訓練時已經(jīng)學習過這些內(nèi)容。

結(jié)果顯示在GPT-3系列和最近開源的大模型中，這種生成內(nèi)容與原始數(shù)據(jù)完全相同的情況普遍存在，且污染程度隨時間呈上升趨勢。

4. 時間序列分析：對于已知訓練數(shù)據(jù)收集時間的模型，測量其在已知發(fā)布日期的數(shù)據(jù)集上的性能，并使用時間序列證據(jù)檢查污染的證據(jù)。

通過對所有數(shù)據(jù)集和LLM進行全球性的時間序列分析，發(fā)現(xiàn)對于在LLM發(fā)布之前收集的數(shù)據(jù)集（左側(cè)），無論是零樣本還是少樣本任務中，擊敗多數(shù)基線的可能性都遠遠更大。

三、最終結(jié)論

在所有實驗過后，論文給出如下關(guān)鍵結(jié)論：

由于任務污染，閉源模型在零樣本或少樣本評估中的性能表現(xiàn)被夸大了，特別是那些經(jīng)過人類反饋的強化學習（RLHF）或指令微調(diào)的模型。由于污染程度仍然未知，我們需要謹慎對待。
在實驗中，對于沒有展示出污染可能性的分類任務，大模型在零樣本和少樣本設(shè)置里很少顯示出相對多數(shù)基線在統(tǒng)計學意義上的顯著性改進。
隨著時間推移，GPT-3系列模型在許多下游任務的零樣本或少樣本性能上的提升很可能是由于任務污染造成的。
即使是開源的LLM，出于多種原因，檢查訓練數(shù)據(jù)的任務污染也可能是困難的。
鼓勵公開訓練數(shù)據(jù)集，以便更容易診斷污染問題。