国产精品特黄特色三级，国产在线观看福利，亚洲二区三区无码人妻，亚洲春色AⅤ无码专区，观看亚洲中文无码，国产韩国精品一区二区三区，亚洲精品97久久宅男，欧洲精品无码毛片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

一個(gè)有價(jià)值、有趣的新產(chǎn)品方向：AI評(píng)測(cè)工具（含5個(gè)案例）

黃釗hanniman

2025-02-12

0 評(píng)論 160 瀏覽 0 收藏

6 分鐘

隨著AI技術(shù)的快速發(fā)展，市場(chǎng)上涌現(xiàn)出了眾多AI產(chǎn)品和服務(wù)，但如何評(píng)估這些產(chǎn)品的性能和效果成為了一個(gè)關(guān)鍵問題。本文將探討“AI評(píng)測(cè)工具”這一新興且有價(jià)值的產(chǎn)品方向，并通過5個(gè)具體案例，展示AI評(píng)測(cè)工具在不同場(chǎng)景中的應(yīng)用，供大家參考。

通過一些案例共性，我們可以提煉出「AI評(píng)測(cè)工具」這個(gè)需求場(chǎng)景/產(chǎn)品形態(tài)，感覺比較有代表性，也很有意思，大家可以關(guān)注下。

下面是具體的5個(gè)案例，評(píng)測(cè)對(duì)象范圍，涉及：AI文檔類產(chǎn)品、大模型速度、Prompt生成及評(píng)測(cè)、Prompt版本管理及表現(xiàn)評(píng)測(cè)，甚至還有最后的“AGI評(píng)測(cè)”。

案例1：「文檔解析產(chǎn)品評(píng)測(cè)工具TextIn」

里面說，對(duì)文檔解析類AI產(chǎn)品的測(cè)評(píng)工具需求，越來越多

需求非常多樣，不同用戶偏重不同：年報(bào)、財(cái)報(bào)、論文、政策文件、企業(yè)內(nèi)部文件，或教科書、試卷、公式等等。
而評(píng)估各款產(chǎn)品，目前是非常痛苦的：測(cè)試效果，要么是端到端的，很難真正定位到解析表現(xiàn)；要么是肉眼判斷，耗時(shí)費(fèi)力，還只能觀測(cè)一小部分樣本。

所以需要有對(duì)應(yīng)的工具，幫用戶篩選適合自己場(chǎng)景的AI產(chǎn)品，節(jié)省“選擇”和“測(cè)試”的時(shí)間。

比如TextIn這個(gè)工具，評(píng)價(jià)指標(biāo)分5個(gè)維度，針對(duì)表格、段落、標(biāo)題、閱讀順序、公式進(jìn)行定量測(cè)評(píng)，結(jié)果有“表格和雷達(dá)圖”兩種樣式。具體指標(biāo)項(xiàng)如下——

案例2：大模型速度評(píng)測(cè)——《大模型真實(shí)速度一覽》

案例3：Claude 「prompt 生成器」功能：一鍵生成、測(cè)試和評(píng)估prompt

由 Claude 3.5 Sonnet 提供支持，用戶可描述任務(wù)、然后讓 Claude 生成高質(zhì)量的 prompt

可修改、并一鍵運(yùn)行所有測(cè)試用例
可對(duì)更好的響應(yīng)進(jìn)行評(píng)分，以跟蹤哪個(gè) prompt 表現(xiàn)最佳。

案例4：Prompt 版本管理網(wǎng)站評(píng)測(cè)

本質(zhì)也是類似的需求——能管理Prompt的歷史版本，能展現(xiàn)Prompt在多模型下的表現(xiàn)。

測(cè)試發(fā)現(xiàn)Athina比較好（官網(wǎng) https://athina.ai/ ，需能上外網(wǎng)）。支持自定義 API key，并支持 Prompt 的版本提交。

Prompt開發(fā)好后，可用Dify測(cè)試同一個(gè) Prompt在“多模型下的效果”。

案例5：在文章《Zapier創(chuàng)始人：大多數(shù)人對(duì)AGI的定義都是錯(cuò)誤的！》中，竟然還涉及對(duì)AGI的評(píng)測(cè)

“剛剛啟動(dòng)了ARC Prizes。這是一個(gè)百萬(wàn)美元以上的非營(yíng)利性公共挑戰(zhàn)，旨在完成Fran?ois的ARC AGI評(píng)估，開源解決方案和進(jìn)展。據(jù)我所知，ARC AGI是世界上唯一一個(gè)真正存在的AGI評(píng)估，它測(cè)量了AGI的正確定義?！?/p>

1）AGI發(fā)展停滯的最大原因是：AI行業(yè)的主流定義——AGI是一個(gè)能夠完成大多數(shù)有經(jīng)濟(jì)效益工作的系統(tǒng)——是錯(cuò)誤的。

衡量錯(cuò)誤的東西，帶給了我們AGI快要成功的錯(cuò)覺，導(dǎo)致AI研究人員和整個(gè)世界“過度投資于利用大規(guī)模語(yǔ)言模型范式，而不是探索急需的新思想”。

2）AGI的正確定義是：一個(gè)能夠高效地獲取新技能，并利用這種能力解決開放性問題的系統(tǒng)。

由此可見，僅僅擴(kuò)大語(yǔ)言模型規(guī)模不能解決問題，還需要類似于Transformers的基本組件。此外，兩個(gè)實(shí)現(xiàn)AGI的思路分別是：程序合成和神經(jīng)架構(gòu)搜索。

3）AGI ARC評(píng)估的重點(diǎn)在于，它是通用智能的一個(gè)最小再現(xiàn)版本。所以，ARC Prize背后的設(shè)置動(dòng)機(jī)是：ARC的解決方案可能來自局外人，因?yàn)樗麄儧]有被當(dāng)前語(yǔ)言模型和規(guī)模的思維方式所洗腦。

大家可以想想，自己所在的AI細(xì)分領(lǐng)域，是否存在這種“AI評(píng)測(cè)工具”的產(chǎn)品機(jī)會(huì)呢？

專欄作家

hanniman，微信公眾號(hào)：hanniman，人人都是產(chǎn)品經(jīng)理專欄作家，前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理，前騰訊產(chǎn)品經(jīng)理，10年AI經(jīng)驗(yàn)，13年互聯(lián)網(wǎng)背景；作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊(cè)》、200頁(yè)P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，不得轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App