如何去評(píng)測(cè)一個(gè)大模型

0 評(píng)論 3357 瀏覽 6 收藏 7 分鐘

做AI應(yīng)用時(shí),我們都會(huì)對(duì)個(gè)大模型進(jìn)行分析評(píng)測(cè),挑選出合適的。但大模型不是APP類產(chǎn)品,評(píng)測(cè)的方法肯定不同,這篇文章,我們就來(lái)看看作者建議如何評(píng)測(cè)。

一、權(quán)威機(jī)構(gòu)評(píng)測(cè)

這是目前由國(guó)內(nèi)C-Eval機(jī)構(gòu)給出的國(guó)內(nèi)大模型的評(píng)測(cè)排名。

C-Eval 是一個(gè)全面的中文基礎(chǔ)模型評(píng)估套件。由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)研究人員在2023年5月份聯(lián)合推出,它包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別,用以評(píng)測(cè)大模型中文理解能力。

那么像這樣的機(jī)構(gòu)或者是說(shuō)大模型的公司,是怎樣通過(guò)這么多的題目和學(xué)科去評(píng)測(cè)一個(gè)模型的好壞和使用好感度的呢。下面讓我們來(lái)研究一下。

二、如何去評(píng)測(cè)一個(gè)模型

1、我們?nèi)ピu(píng)測(cè)模型到底是在評(píng)測(cè)什么呢?

我們說(shuō)對(duì)大規(guī)模數(shù)據(jù)訓(xùn)練的大模型的評(píng)估,主要是評(píng)估模型的理解能力、推理能力和表達(dá)能力,以確保它能夠在新的未見(jiàn)過(guò)的數(shù)據(jù)上有能夠進(jìn)行有效的工作和泛化能力。

2、如何評(píng)測(cè)呢?

我們?nèi)ピu(píng)測(cè)任何一個(gè)模型或是說(shuō)任何一個(gè)模型的某一項(xiàng)能力的時(shí)候,并不是盲目去問(wèn)問(wèn)題看回答的。而是要先確定好一個(gè)評(píng)測(cè)標(biāo)準(zhǔn),有了這些規(guī)則,我們才能根據(jù)這些規(guī)則標(biāo)準(zhǔn)去評(píng)測(cè)一些的模型的好壞,或者說(shuō)模型的有效的工作能力才有了依據(jù)的標(biāo)準(zhǔn)。

那么,我們要去定義的規(guī)則標(biāo)準(zhǔn)是什么呢?

假如:我們?cè)u(píng)測(cè)模型的標(biāo)準(zhǔn)定義為:回答是否偏題、內(nèi)容豐富度是否夠豐富、邏輯是否正確、語(yǔ)意是否通順、如果是書(shū)信問(wèn)題格式是否正確、表達(dá)是否有冗余或者重復(fù)、是否遵循多輪的邏輯、回答的知識(shí)點(diǎn)是否有遺漏等等。

那有了這些基礎(chǔ)的標(biāo)準(zhǔn)我們就可以根據(jù)這些標(biāo)準(zhǔn)來(lái)制定一些方案來(lái)評(píng)測(cè)模型了

1)給模型打分

我們可以把模型的回答定為4個(gè)分?jǐn)?shù)

  • 4分:完全符合規(guī)則。
  • 3分:不完全滿足,有點(diǎn)可以接受的小問(wèn)題,比如標(biāo)點(diǎn)符號(hào)之類的。
  • 2分:不完全滿足,有大瑕疵,但大意解釋清楚了
  • 1分:完全不滿足,完全沒(méi)有回答問(wèn)題。

2)模型之間相比較

模型之間相比較的方式為 “GSB(good same bad)”:意思是人們從整體感知,評(píng)判為兩個(gè)模型之間的優(yōu)劣。

通俗來(lái)講:G:就是good 也就是好的模型、B:就是bad 也就是壞的模型、S:就是same 一樣好或是一樣壞的模型。

這個(gè)方法適用于多個(gè)模型之間的對(duì)比

評(píng)測(cè)方法為:

模型A VS 模型B

A:如果A好,打A

B:如果B好,打B

S:如果一樣好(或者一樣不好),打S。

統(tǒng)計(jì)結(jié)果:

模型A :模型B = A好的數(shù)量 :S的數(shù)量 : B好的數(shù)量

比如,A : B = 25:30:55,B勝出

這兩種方法是AI訓(xùn)練師在做模型訓(xùn)練時(shí)比較常用的方法。

3)需要注意的事情

在測(cè)評(píng)的時(shí)候一定要應(yīng)客觀公正,不能根據(jù)個(gè)人知識(shí)水平、立場(chǎng)偏好、回復(fù)長(zhǎng)短等評(píng)測(cè),這樣會(huì)對(duì)回答失去公平性。

三、評(píng)測(cè)的數(shù)據(jù)集從哪里來(lái)

測(cè)數(shù)據(jù)集,可以客觀地評(píng)估模型在實(shí)際應(yīng)用中的表現(xiàn)。只有在評(píng)測(cè)數(shù)據(jù)集上表現(xiàn)良好的模型,才能認(rèn)為其具有實(shí)際應(yīng)用價(jià)值。然而獲取數(shù)據(jù)集的渠道可以從以下幾個(gè)方面來(lái)獲得以及清洗數(shù)據(jù):

公開(kāi)數(shù)據(jù)集平臺(tái)

  • C-Eval:C-Eval數(shù)據(jù)集主要用于評(píng)測(cè)大模型的知識(shí)和邏輯推理能力,即大模型是否能夠認(rèn)識(shí)和理解廣泛的世界知識(shí),并類似人類一樣對(duì)事物進(jìn)行推理規(guī)劃
  • GitHub:許多研究人員和開(kāi)發(fā)者會(huì)在GitHub上共享數(shù)據(jù)集。

行業(yè)數(shù)據(jù)平臺(tái)

  • 阿里云天池:阿里云提供的一個(gè)數(shù)據(jù)競(jìng)賽平臺(tái),提供豐富的數(shù)據(jù)集和競(jìng)賽機(jī)會(huì)。
  • 京東AI研究院:提供一些公開(kāi)的機(jī)器學(xué)習(xí)數(shù)據(jù)集。

學(xué)術(shù)研究

  • 研究論文:許多研究論文會(huì)附帶數(shù)據(jù)集鏈接,可以通過(guò)閱讀相關(guān)領(lǐng)域的研究論文獲取數(shù)據(jù)集。
  • 學(xué)術(shù)會(huì)議和期刊:頂級(jí)的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)會(huì)議(如NeurIPS、ICML、CVPR等)和期刊(如JMLR、TPAMI等)通常會(huì)發(fā)布與研究相關(guān)的數(shù)據(jù)集。

API和開(kāi)放數(shù)據(jù)接口

  • 一些開(kāi)放數(shù)據(jù)平臺(tái)提供API接口,可以通過(guò)API獲取最新的數(shù)據(jù)。例如,Twitter API、Weather API、Google Maps API等。

最后,我們?cè)谶x擇數(shù)據(jù)集時(shí)需要考慮數(shù)據(jù)集的質(zhì)量、規(guī)模、標(biāo)簽的準(zhǔn)確性以及是否與評(píng)測(cè)任務(wù)相關(guān)。確保數(shù)據(jù)集足夠多樣化,能夠涵蓋模型可能遇到的各種情況,從而全面評(píng)測(cè)模型的性能。

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!