一個(gè)有價(jià)值、有趣的新產(chǎn)品方向:AI評(píng)測(cè)工具(含5個(gè)案例)

0 評(píng)論 160 瀏覽 0 收藏 6 分鐘

隨著AI技術(shù)的快速發(fā)展,市場(chǎng)上涌現(xiàn)出了眾多AI產(chǎn)品和服務(wù),但如何評(píng)估這些產(chǎn)品的性能和效果成為了一個(gè)關(guān)鍵問題。本文將探討“AI評(píng)測(cè)工具”這一新興且有價(jià)值的產(chǎn)品方向,并通過5個(gè)具體案例,展示AI評(píng)測(cè)工具在不同場(chǎng)景中的應(yīng)用,供大家參考。

通過一些案例共性,我們可以提煉出「AI評(píng)測(cè)工具」這個(gè)需求場(chǎng)景/產(chǎn)品形態(tài),感覺比較有代表性,也很有意思,大家可以關(guān)注下。

下面是具體的5個(gè)案例,評(píng)測(cè)對(duì)象范圍,涉及:AI文檔類產(chǎn)品、大模型速度、Prompt生成及評(píng)測(cè)、Prompt版本管理及表現(xiàn)評(píng)測(cè),甚至還有最后的“AGI評(píng)測(cè)”。

案例1:「文檔解析產(chǎn)品評(píng)測(cè)工具TextIn」

里面說,對(duì)文檔解析類AI產(chǎn)品的測(cè)評(píng)工具需求,越來越多

  • 需求非常多樣,不同用戶偏重不同:年報(bào)、財(cái)報(bào)、論文、政策文件、企業(yè)內(nèi)部文件,或教科書、試卷、公式等等。
  • 而評(píng)估各款產(chǎn)品,目前是非常痛苦的:測(cè)試效果,要么是端到端的,很難真正定位到解析表現(xiàn);要么是肉眼判斷,耗時(shí)費(fèi)力,還只能觀測(cè)一小部分樣本。

所以需要有對(duì)應(yīng)的工具,幫用戶篩選適合自己場(chǎng)景的AI產(chǎn)品,節(jié)省“選擇”和“測(cè)試”的時(shí)間。

比如TextIn這個(gè)工具,評(píng)價(jià)指標(biāo)分5個(gè)維度,針對(duì)表格、段落、標(biāo)題、閱讀順序、公式進(jìn)行定量測(cè)評(píng),結(jié)果有“表格和雷達(dá)圖”兩種樣式。具體指標(biāo)項(xiàng)如下——

案例2:大模型速度評(píng)測(cè)——《大模型真實(shí)速度一覽》

案例3:Claude 「prompt 生成器」功能 :一鍵生成、測(cè)試和評(píng)估prompt

由 Claude 3.5 Sonnet 提供支持,用戶可描述任務(wù)、然后讓 Claude 生成高質(zhì)量的 prompt

  • 可修改、并一鍵運(yùn)行所有測(cè)試用例
  • 可對(duì)更好的響應(yīng)進(jìn)行評(píng)分,以跟蹤哪個(gè) prompt 表現(xiàn)最佳。

案例4:Prompt 版本管理網(wǎng)站評(píng)測(cè)

本質(zhì)也是類似的需求——能管理Prompt的歷史版本,能展現(xiàn)Prompt在多模型下的表現(xiàn)。

測(cè)試發(fā)現(xiàn)Athina比較好(官網(wǎng) https://athina.ai/ ,需能上外網(wǎng))。支持自定義 API key,并支持 Prompt 的版本提交。

Prompt開發(fā)好后,可用Dify測(cè)試同一個(gè) Prompt在“多模型下的效果”。

案例5:在文章《Zapier創(chuàng)始人:大多數(shù)人對(duì)AGI的定義都是錯(cuò)誤的!》中,竟然還涉及對(duì)AGI的評(píng)測(cè)

“剛剛啟動(dòng)了ARC Prizes。這是一個(gè)百萬(wàn)美元以上的非營(yíng)利性公共挑戰(zhàn),旨在完成Fran?ois的ARC AGI評(píng)估,開源解決方案和進(jìn)展。據(jù)我所知,ARC AGI是世界上唯一一個(gè)真正存在的AGI評(píng)估,它測(cè)量了AGI的正確定義?!?/p>

1)AGI發(fā)展停滯的最大原因是:AI行業(yè)的主流定義——AGI是一個(gè)能夠完成大多數(shù)有經(jīng)濟(jì)效益工作的系統(tǒng)——是錯(cuò)誤的。

衡量錯(cuò)誤的東西,帶給了我們AGI快要成功的錯(cuò)覺,導(dǎo)致AI研究人員和整個(gè)世界“過度投資于利用大規(guī)模語(yǔ)言模型范式,而不是探索急需的新思想”

2)AGI的正確定義是:一個(gè)能夠高效地獲取新技能,并利用這種能力解決開放性問題的系統(tǒng)。

由此可見,僅僅擴(kuò)大語(yǔ)言模型規(guī)模不能解決問題,還需要類似于Transformers的基本組件。此外,兩個(gè)實(shí)現(xiàn)AGI的思路分別是:程序合成和神經(jīng)架構(gòu)搜索。

3)AGI ARC評(píng)估的重點(diǎn)在于,它是通用智能的一個(gè)最小再現(xiàn)版本。所以,ARC Prize背后的設(shè)置動(dòng)機(jī)是:ARC的解決方案可能來自局外人,因?yàn)樗麄儧]有被當(dāng)前語(yǔ)言模型和規(guī)模的思維方式所洗腦。

大家可以想想,自己所在的AI細(xì)分領(lǐng)域,是否存在這種“AI評(píng)測(cè)工具”的產(chǎn)品機(jī)會(huì)呢?

專欄作家

hanniman,微信公眾號(hào):hanniman,人人都是產(chǎn)品經(jīng)理專欄作家,前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理,前騰訊產(chǎn)品經(jīng)理,10年AI經(jīng)驗(yàn),13年互聯(lián)網(wǎng)背景;作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊(cè)》、200頁(yè)P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!