AI又顛覆了?淺談如何科學(xué)祛魅,評估業(yè)務(wù)賦能程度

7 評論 2891 瀏覽 6 收藏 20 分鐘

AI的快速迭代也讓許多人感到困惑:如何科學(xué)評估AI對業(yè)務(wù)的實際賦能程度?本文將分享一套基于業(yè)務(wù)需求的AI評測方法,幫助讀者通過量化指標(biāo)和定制化測試,科學(xué)地評估AI工具在特定業(yè)務(wù)場景中的適用性和效果。

過年期間想必各位都被Deepseek刷屏了吧,各種鋪天蓋地的消息席卷而來,什么干掉OpenAI、干掉美國、干掉所有人。

巨大的流量背后是人們對AI巨大的期望,或者是困惑——“如今的AI能怎么樣賦能我/我的團隊/我的企業(yè)?”

關(guān)于這個困惑,個人覺得不僅僅是在Deepseek這一波里面存在,而是在AI的迭代日新月異的當(dāng)下,每一個人無時無刻都會沉浸在類似于“AI發(fā)展到哪里了”、“現(xiàn)在AI現(xiàn)在對我有什么用”的焦慮當(dāng)中。因為如果等到AI應(yīng)用在我們自身的領(lǐng)域普及的時候,已經(jīng)是“我們要被淘汰”的時候了。

就拿我經(jīng)常折騰的AI視頻來舉例子。

2024年AI視頻生成技術(shù)可謂發(fā)展超級迅猛,涌現(xiàn)了不少AI視頻生成廠商,比如可靈、Sora、即夢、Pika……一開始各家的能力還非常垃圾,我還以為“AI視頻領(lǐng)域或許還要等個幾年才能在業(yè)務(wù)用上”,但是僅僅過了半年,業(yè)務(wù)的同學(xué)就已經(jīng)可以把AI視頻結(jié)合業(yè)務(wù)用起來了。

放點成品可能直觀點,同樣是生成皇宮,如今的可靈簡直是吊打半年前的可靈。

這意味著,身處浪潮之中的每個人,如果不想被淘汰,必須得時事跟進,定期測試。這里的測試目的在于:

1.了解AI廠商從X.0版本迭代到X.1版本,對于我們的業(yè)務(wù)而言,提升了什么?

2.了解多個AI廠商之間最新版本的區(qū)別,哪個廠商對于我們的業(yè)務(wù)而言具有更高的效用?

從而保證我們能夠“貼合業(yè)務(wù)需要”地跟進“AI的發(fā)展”

可能會有人提出疑問。

“廠商不是有更新公告等說明嗎?”

我們無法從廠商給出的介紹中獲取答案,因為他們只會含糊地描述為“更好”(如下圖),那在哪些方面更好呢?有多好呢?這些我們是沒法知道的。

“不是有專門的評測機構(gòu)嗎?”

目前的確有一些組織會進行AI大模型評分,通過一系列標(biāo)準(zhǔn)化的測試來衡量其在不同任務(wù)上的表現(xiàn)。比如SuperCLUE這個第三方評測機構(gòu),就會定期出題進行測試,從而判斷各家大模型在他們定制的維度下的表現(xiàn),并得出最終的評分。

但是這種方式僅僅能幫我們快速篩選掉一些較差的大模型廠商,而其中的評測結(jié)果不一定適用于我們,因為評測的維度、評測的題目不一定符合我們的需求。

比如我們是電商行業(yè),我們使用AI視頻的需求是“商品展示視頻”,在這個場景下,我們對AI視頻的“外觀遵循能力”的要求是“XX類商品”的外觀遵循準(zhǔn)確。所以基于“指定題集”的評測結(jié)果,可能對人物、動物、汽車等常見的主體外觀識別準(zhǔn)確,但是在“XX類商品”上不一定準(zhǔn)確,所以不一定適合我們的業(yè)務(wù)場景。

正如智源研究院副院長兼總工程師林詠華所言,“榜單排名不應(yīng)作為評價模型的唯一標(biāo)準(zhǔn)?!绷衷伻A認(rèn)為,用戶在選擇模型時,應(yīng)根據(jù)自身需求和應(yīng)用場景,綜合考慮模型的各項指標(biāo),而非僅僅關(guān)注排名。

而且對于天天“顛覆”的AI行業(yè)來說,依靠第三方平臺不能讓我們快速跟進,比如像是SuperCLUE這種平臺,頂多一個月一次評測。

所以這種情況下,我們還是需要進行基于業(yè)務(wù)的定制化AI評測,用我們專有的業(yè)務(wù)題庫。下面便分享下我的一些心得。

01 測試核心邏輯

先簡單講講核心的步驟,重點在于結(jié)合業(yè)務(wù)需求,設(shè)計可被量化的“測試指標(biāo)”,并設(shè)計可分為多個難度的題集。拆分成步驟的話,主要是:

1.初篩;

2.工具熟悉;

3.設(shè)計評測指標(biāo);

4.選取測試樣本;

5.執(zhí)行并記錄評分;

02 測試說明及案例

那下面具體講一下每一步是如何進行的。

1. 初篩——通過信息采集渠道初篩

我們沒法全部AI廠商都進行測試,因為測試是需要一定的人力成本以及工具購買成本,所以一開始要通過一些可靠的信息源初篩,避免過度浪費時間。

那么,有那些可靠的信息源呢?

1)專門的評測機構(gòu)

正如前文提到,專門的評測機構(gòu)會進行大批量的系統(tǒng)化的測試,我們可以通過他們的測試結(jié)果了解到目前能力最強的是什么AI廠商。但是可能會出現(xiàn)排在前面的幾個AI分?jǐn)?shù)差不多的情況

這種情況下,我們就要看評測機構(gòu)的各評分項的分值情況,來看看“哪家廠商在我們需要的能力上分值更高”。

圖來源于SuperCLUE官網(wǎng)

比如我們做電商的,我們往往需要“商品展示視頻中的商品不要變形”,所以會更看重“外觀遵循”這項能力。由此,通過篩選“外觀遵循”的分值,我們會發(fā)現(xiàn)Luma的分值是最高的。那么我們便可優(yōu)先測試Luma。

2)自媒體評測

我們也可以通過各種AI自媒體的評測來獲知“哪些AI可能更適合我們”。但是并非所有自媒體都要相信,我們要警惕以下賬號:

  • 天塌黨:指天天喊著行業(yè)顛覆,XXX行業(yè)又要失業(yè)的一些自媒體,這些人往往AI都沒用過幾次,對實際業(yè)務(wù)也不了解,看到AI廠商的更新公告和測試案例就“高潮”了,上來就劈頭蓋臉地說大伙要完蛋 以博取流量。
  • 廣告黨:這些號往往會在某家廠商發(fā)布某項新功能的適合發(fā)視頻,其目的就是宣揚別的廠商的新功能。這些號的內(nèi)容往往會“避重就輕”,給到的案例都是好的案例,對于AI實際存在的問題避而不談,從而誤導(dǎo)用戶“這個AI號真牛啊”。

我們選擇自媒體的時候,要看看“他們是否有一定的粉絲基礎(chǔ)”、“描述方式是否客觀”、“是否有足夠的案例”,從而判斷他們的話是否可信。

3)官方案例

大部分廠商都會放出一定量的官方案例,有的甚至?xí)泄俜缴鐓^(qū)(比如AI視頻廠商的創(chuàng)意圈)。

因為這些案例必定是經(jīng)過精挑細(xì)選的,所以我們可從中看到AI廠商能力的“上限”,也能和其他廠商進行快速的橫向?qū)Ρ取?/p>

4)AI社區(qū):遇事不決,就問群里的大佬。

在群聊里,我們可以問到一些大佬最真實的使用體驗,通過這些反饋,我們可以快速獲悉“AI在實際應(yīng)用中的表現(xiàn)”,從而判斷AI是否對我們的業(yè)務(wù)有幫助。

所以在AI時代盡可能地拓展信息源,是一項非常重要的事情。

2. 工具熟悉——熟悉工具才能客觀地測試

通過初篩選出的AI工具后,我們需要對這些工具有初步的認(rèn)知。不然你可能連工具的50%力量都沒發(fā)揮出來,卻由于“自己的不熟悉”而給“一個優(yōu)質(zhì)的工具”評判為“不合適”。

那如何快速熟悉工具呢?

在這個時代,我們最不怕的就是學(xué)不會工具了。因為現(xiàn)在“教大家用AI賺錢的人”可能比“用AI賺錢的人”還要多,隨便上網(wǎng)一搜,全都是“教你怎么用XX AI”的教程。更懶一點的,隨便上個知識付費網(wǎng)站,都還能找到手把手教你的。

而且,官方也會“想盡辦法教會你”,因為用戶用得越好,便能通過優(yōu)質(zhì)案例吸引更多用戶,帶來更多付費。

像是可靈、豆包,他們都提供了“用戶教育”相關(guān)的功能。

可靈有官方教程功能、創(chuàng)意圈的“一鍵同款”功能……

豆包則提供了提示詞示例功能,用于告知用戶“該AI能做什么”。

但無論如何,最重要的是,我們要親自上手使用工具。弄臟自己雙手,親自體驗,不要紙上談兵。

3. 設(shè)計評測指標(biāo)——設(shè)計“描述工具是否適合我們”的量化標(biāo)準(zhǔn):

由于我們是需要對多個AI廠商進行對比,而我們對比的內(nèi)容是偏主觀的“AI生成內(nèi)容”,因此我們需要設(shè)計一套評測指標(biāo),用來描述“工具是否適合我們”。

那么如何設(shè)計這套指標(biāo)呢?以下為個人梳理的步驟~

1)梳理“滿足業(yè)務(wù)需求的標(biāo)準(zhǔn)”?!?/strong>

并非所有人都能立馬把一個主觀的事物抽象出“客觀的評價”的。所以這里有個技巧,我們先問問自己“到底AI生成成什么樣,才能視為滿足業(yè)務(wù)需求呢”?

通過這個過程,我們可以去想象 或者找到一些滿足業(yè)務(wù)需求的案例,從中找到一些共性。

比如在營銷文案生成場景,營銷文案必須是“創(chuàng)意獨特的”、“滿足目標(biāo)用戶群體需求的”、“引起情感共鳴的”、“語言流暢清晰的”。

比如在商品展示視頻(圖生視頻)生成場景,生成的成品視頻必須是“清晰的”、“商品外觀前后一致的”、“動作指令一致的”。

2)從標(biāo)準(zhǔn)倒推“評測維度”。 

當(dāng)我們寫好“標(biāo)準(zhǔn)”后,我們倒推“評測維度”就很簡單了。只需要使用一個中性詞匯對其描述即可。

繼續(xù)拿上面兩個案例舉例~

比如在營銷文案生成場景~

比如在商品展示視頻(圖生視頻)生成場景~

3)設(shè)計每個維度的分值及其分段定義?!?/strong>

最后,我們需要設(shè)計每個維度的分值定義。這里定義需要把主觀的事情進行“量化”,從而保證最終的分值是客觀的,也保證即使進行團隊評測,也能夠較為公正地進行AI工具評測。

對主觀事物進行量化的方法無非是找到其中可被量化定義的事物。

我們可以嘗試從中找到可被量化定義的事物,比如一段文章中的“錯別字”、“關(guān)鍵詞”數(shù)量,比如一段文章中有無“XX錯誤”,這些內(nèi)容可以通過客觀的標(biāo)準(zhǔn)進行描述,從而統(tǒng)計其中的數(shù)量。

像是“錯別字”、“關(guān)鍵詞”這類內(nèi)容,是能夠客觀地定義“錯別字”、“關(guān)鍵詞”,并從中數(shù)出這些內(nèi)容的數(shù)量。而像是“美麗畫面”的數(shù)量這種“主觀定義”的事物,則無法用于判斷維度分值的定義。

比如錯別字?jǐn)?shù)量可以用來衡量“生成正確性”,并得出以下標(biāo)準(zhǔn)。

生成正確性

  • 高分(8-10分):少于2個錯別字。
  • 中等(4-7分):有3-4個錯別字。
  • 低分(0-3分):大于5個錯別字。

比如“畫面與指令不符合區(qū)域數(shù)量”可以用來視頻生成AI的“外觀指令遵循”,并得出以下標(biāo)準(zhǔn)。

外觀指令遵循

  • 高分(8-10分):少于或等于1個畫面與指令不符合區(qū)域數(shù)。
  • 中等(4-7分):少于或等于4個畫面與指令不符合區(qū)域數(shù)。
  • 低分(0-3分):4個以上個畫面與指令不符合區(qū)域數(shù)。

比如AI是否準(zhǔn)確分類,這種維度其中只有“準(zhǔn)”與“不準(zhǔn)”的說法。

分類正確性

  • 高分(10分):準(zhǔn)確分類。
  • 低分(0分):分類不準(zhǔn)確。

當(dāng)然,以上步驟完全可以借力,比如:

1)AI代勞: 

AI在這些方面還是挺在行的,寫的清晰又全面,我們可以直接描述下業(yè)務(wù),把這個問題甩給AI。

我是一個電商行業(yè)的從業(yè)者,我想測試deepseek在廣告文案生成上的效果,現(xiàn)在需要幾個評價維度,幫助我用分?jǐn)?shù)來衡量deepseek在這里的表現(xiàn)。

請你寫出至少5個評價維度~并給出這5個維度里面,低分、中等、高分的量化定義。

注意,定義需要可量化!

2)抄第三方評測機構(gòu)標(biāo)準(zhǔn): 

直接基于評測機構(gòu)的維度進行二次優(yōu)化和修改,修改的內(nèi)容可以結(jié)合業(yè)務(wù)的實際需求進行調(diào)整。

圖來源于SuperCLUE官網(wǎng)

比如視頻生成場景,我們可以先參考SuperCLUE的指標(biāo),列出“主體外觀畫質(zhì)”、“背景畫面畫質(zhì)”、“主體外觀遵循能力”、“背景畫面遵循能力”、“數(shù)量精準(zhǔn)性”、“空間關(guān)系”、“運鏡準(zhǔn)確性”、“單一主體動態(tài)準(zhǔn)確性”、“多個主體動態(tài)準(zhǔn)確性”……

然后假設(shè)我們是電商業(yè)務(wù)的“商品展示”場景,那邊便可拎出“主體外觀畫質(zhì)”、“主體外觀遵循能力”、“運鏡準(zhǔn)確性”、“單一主體動態(tài)準(zhǔn)確性”這幾個維度作為我們的測試重點。

4. 選取測試樣本——選擇充分且合適的樣本;

基于評測指標(biāo),使用具有代表性的測試素材在不同方案上進行測試。這些素材需要具備以下特征:

1)樣本量充分: 

我們的樣本不能只有僅僅一兩個,需要達到一定的量級,使得AI的能力能被充分測試。

2)貼合評測指標(biāo): 

所選的樣本需要能夠?qū)υu測指標(biāo)進行檢驗,比如測試AI編程水平的時候,要檢測其BUG識別能力的時候,至少需要樣本中“有BUG”。

3)對不同難度的樣本進行分類: 

多個樣本其實也會有難度之別,所以我們需要對題庫進行難度分類,避免題目過難,評測結(jié)果分值偏低,最終看不出AI的作用。

對題庫進行難度分類的方式和“評測指標(biāo)設(shè)計”中的“分值設(shè)置”思路類似,是找到其中的可量化點,然后對其進行難度劃分。

比如評測文本AI的“錯字識別”能力時,可以直接按樣本中的錯字?jǐn)?shù)量進行難度劃分。

錯字識別

  • 高難度:大于5個錯字。
  • 中難度:3~4個錯字。
  • 低難度:1~2個錯字。

5. 執(zhí)行并記錄評分

最后,就是將樣本在AI工具上批量測試,并記錄相關(guān)結(jié)論和截圖。由于這一部分評價偏主觀,最好由同一批人進行評價。

如果樣本中存在不同難度,則最好分批次進行測試,分別記錄不同難度下的分值,以更精細(xì)地判斷AI的能力邊界。

小結(jié)

至此,個人對于AI評測的經(jīng)驗便匯總完了,核心是結(jié)合業(yè)務(wù)需求,設(shè)計可被量化的“測試指標(biāo)”,并設(shè)計可分為多個難度的題集。這套方案也是能一定程度上輔助我們量化判斷“AI能力對我們業(yè)務(wù)的作用”,幫助我們在日新月異的AI浪潮下,快速在業(yè)務(wù)中引入AI的關(guān)鍵一步。

本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】,微信公眾號:【檸檬餅干凈又衛(wèi)生】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 樓上說得沒錯,這作者是個自以為是的東西,發(fā)在這里能看到文章的人,都是行業(yè)里的人,都是了解情況的人。還故意夾帶私貨,自作聰明。你美爹不是砍經(jīng)費了嗎?怎么還跑來這里“祛魅”來了。文章根本不是分析DS,開頭卻自作聰明畫蛇添足說干掉服務(wù)器??尚χ翗O。你這種人就跟假期高速免費,于是高速車流激增,高速堵車。于是蚣痔跳出來說,你看高速公路有何用,還不如我丑國的鄉(xiāng)村公路,不會堵車。本末倒置。

    來自福建 回復(fù)
    1. 抱歉,開頭那一段已經(jīng)刪掉了,個人相關(guān)政治敏感度不足。這里主要想要分享的是評測的思路和方法論。

      來自廣東 回復(fù)
  2. 有病,開頭先干掉自己的服務(wù)器,是因為什么你心里沒數(shù)?在這危言聳聽

    來自江蘇 回復(fù)
    1. 樓上說得沒錯,這作者是個自以為是的東西,發(fā)在這里能看到文章的人,都是行業(yè)里的人,都是了解情況的人。還故意夾帶私貨,自作聰明。你美爹不是砍經(jīng)費了嗎?怎么還跑來這里“祛魅”來了。文章根本不是分析DS,開頭卻自作聰明畫蛇添足說干掉服務(wù)器??尚χ翗O。你這種人就跟假期高速免費,于是高速車流激增,高速堵車。于是蚣痔跳出來說,你看高速公路有何用,還不如我丑國的鄉(xiāng)村公路,不會堵車。本末倒置。

      來自福建 回復(fù)
    2. 說得沒錯,我也給這只自以為是的東西留言了,一起罵這種蚣痔。

      來自福建 回復(fù)
    3. 我本來是回復(fù)你,但后面取消回復(fù)你而是自己留言。沒想到,這網(wǎng)站可真拉胯,明明取消回復(fù)卻還是變成回復(fù)你。然后還不能刪除。20年前的網(wǎng)站都不至于做成這樣。

      來自福建 回復(fù)
    4. 抱歉,開頭那一段已經(jīng)刪掉了,個人相關(guān)政治敏感度不足。但是主要想要分享的是評測的思路和方法論。

      來自廣東 回復(fù)