大語言模型做產(chǎn)品實測:效果究竟如何?
隨著大語言模型的發(fā)展,越來越多的人開始關(guān)注其在產(chǎn)品領(lǐng)域的實際效果。這篇文章將深入探討大語言模型在產(chǎn)品開發(fā)中的應(yīng)用,分析其優(yōu)勢和局限性,并通過實測數(shù)據(jù)來評估其實際效果。
大年初八,年后上班的第一天,我就收拾行囊,直奔客戶那兒去,準備扎營開干,全力搞出個大語言模型的產(chǎn)品應(yīng)用來。
為啥要這么著急跑客戶現(xiàn)場來開發(fā)呢?原因有兩點:
一是我們要做這個產(chǎn)品,必須要有數(shù)據(jù),要不大模型的準確度上不去,做出來個60分的產(chǎn)品,對客戶根本談不上提質(zhì)增效,大概率會被嫌棄。
二是客戶比我們著急,寄希望于我們把產(chǎn)品做出成效,好圓前期吹出去的牛,堵上同行質(zhì)疑的嘴。
說實在的,過去一兩年大模型的橫空出世,人工智能那是火得一塌糊涂,各行各業(yè)都發(fā)起了一場場的AI競賽。
大家都想著搶先一步,宣傳自家用上AI的產(chǎn)品之后,到底牛成啥樣了。
正因為大家都相信AI可以極大提升效率,可以替代人力,可以解放生產(chǎn)力。所以,都一股腦兒地扎進用AI做產(chǎn)品的浪潮之中。
不過啊,有些人宣傳得太過頭,花了幾百萬做出來的東西,結(jié)果還是一個小學(xué)生的水平,別說替代人力,還得花更多的精力去“批改”它的作業(yè)。
說到客戶,他們對AI的預(yù)期其實各不相同。
有些客戶從來就沒有用過AI的東西,也不確定這東西到底能干啥,你整個AI的產(chǎn)品給他這么一試,他會覺得非常的神奇?!鞍パ?,居然寫出來的東西看起來還可以,是那么回事。”
而另外一些客戶呢,因為一直在做AI方面的產(chǎn)品的嘗試,心里大概也知道,AI能做啥,水平幾何。所以,當(dāng)你提供給他的產(chǎn)品,還是只有六七十分的水平,他就會比較失望。因為在他的預(yù)期中,AI必須要替代人力,解放人力,別的地方都是這么宣傳的,都已經(jīng)到了這么牛的地步,你家的產(chǎn)品還得讓人伺候著,那哪行??!
言歸正傳,當(dāng)前階段,絕大部分嘗鮮用上AI的客戶,其實都是死鴨子嘴硬,60分的效果硬是要吹出90分的成效。
搞得大家對AI的預(yù)期都上了一個臺階,就如同明明你家的孩子只能考60分,你卻說考到了90分,這下子大家都相信這個孩子可以上一個好學(xué)校。但只有你心里清楚,就這水平,高中估計都上不了。
而我們呢?匆匆趕赴客戶現(xiàn)場來做項目,就相當(dāng)于要給這個孩子上一個強化班,短時間內(nèi)要把他的成績從60分提升到80分,這樣好歹也算是個“學(xué)習(xí)成績好”的孩子了。
接下來,我就來簡單分析一下我們用AI做出來的這個“孩子”到底能考得怎么樣,哪些“題”擅長,哪些“題”還不行。
計算題——100分
說到計算,大模型那可是個中高手,尤其是那些需要按照各種規(guī)則來推算的業(yè)務(wù),對它來說簡直就是小菜一碟。只要你把計算規(guī)則梳理得清清楚楚,大模型就會輸出準確的答案,并且可以給到你解題的步驟,讓你看得明明白白。
拿司法領(lǐng)域常見的量刑計算來舉例:
基本案情:張三,男,25歲,2000年1月30日生,民族:漢族,身份證號:43*****56,文化程度:初中,政治面貌:群眾,戶籍地:西虹市經(jīng)開區(qū)前進村90號,現(xiàn)居地:西虹市高新區(qū)廣陽村1棟2單元101。犯罪嫌疑人張三有多次盜竊前科,最近一次因為盜竊罪被判處有期徒刑2年,于2023年4月4日刑滿釋放。2025年1月20日晚上23時許,張三獨自一人來到西虹市高新區(qū)廣場路停車廠,以“手拉車門”的方式盜竊了李xxx放置在小車內(nèi)的現(xiàn)金1000元和2張銀行卡。
問:張三應(yīng)該如何量刑?
答:張三盜竊金額為1000元,屬于數(shù)額較大的范疇,且沒有其他嚴重情節(jié),因此,其基準刑應(yīng)在三年以下有期徒刑、拘役或者管制,并處或者單處罰金。
大模型的這個計算過程就是基于法律條款的明確規(guī)則,根據(jù)其犯罪的情節(jié)加以分析,得出的答案。
填空題——90分以上
這里說的填空題,就是能從文書中精準抓取“要素字段”。別以為它只是簡單檢索關(guān)鍵詞做匹配,現(xiàn)在它已經(jīng)聰明到能理解語意了,意思相近的描述它也能秒懂。
繼續(xù)以張三盜竊案子來舉例:
這一次,我們要求大模型從張三的案件描述中提取相關(guān)的信息。
問:請幫我提取出犯罪嫌疑人張三的基本信息,包括:姓名、年齡、性別、民族、身份證號、文化程度、戶籍地、犯罪時間、犯罪地點、盜竊金額。
答:
- 姓名:張三
- 年齡:25歲
- 性別:男
- 民族:漢族
- 身份證號:43*****56
- 文化程度:初中
- 戶籍地:西虹市經(jīng)開區(qū)前進村90號
- 犯罪時間:2025年1月20日晚上23時許
- 犯罪地點:西虹市高新區(qū)廣場路停車場
- 盜竊金額:1000元
幾乎是100%的準確,為什么我認為效果只能達到90分以上呢?它也有“犯迷糊”的時候。
從我做產(chǎn)品的實踐經(jīng)驗來看,這里主要受限于如下兩個方面:
- 有一部分的文書材料是照片或掃描、復(fù)印出來的,文字會存在不清晰、有折痕、有印章等情況,導(dǎo)致大模型識別出來的文字內(nèi)容可能會出錯,間接導(dǎo)致了提取效果不好。
- 存在一些文書的描述表達不夠清晰、準確或有錯別字的情況,我們自己去閱讀是能發(fā)現(xiàn)和理解的,但大模型還理解不了,也就可能準確率降低。
這也引申出一個思考:我們看到的絕大部分的產(chǎn)品宣傳那些“天花亂墜”的效果,都是在理想條件下測出來的?,F(xiàn)實里,啥奇怪事兒都能遇到,產(chǎn)品效果自然就得打點折扣
閱讀理解——70分
我們有很多的產(chǎn)品功能,其實是需要去做數(shù)據(jù)分析、業(yè)務(wù)流程規(guī)范(預(yù)警)、關(guān)鍵信息的摘取,這些功能都涉及到需要讓大模型幫我們?nèi)プ鲂畔⒌姆治隹偨Y(jié)。
比如,針對上述的張三案件,檢察官要去做社會危險性的評估(分析下張三有沒有存在危害社會的可能性),以決定是否要逮捕張三。其中,有一個評估指標是:在案發(fā)地有相對固定的工作或住所。
問:請幫我提取出張三案件中涉及到社會危險性的相關(guān)指標內(nèi)容?
在大模型給出的回答中,就沒有給出“在案發(fā)地有相對固定的工作或住所”。
我繼續(xù)問它,為什么沒有呢?
它回答的邏輯是:內(nèi)容中并沒有明確告知張三有固定住所或工作。
也就是說,對于一些信息的理解,大模型有時候還是比較死板,還達不到我們看到一個信息,可以直接推導(dǎo)出結(jié)論,你需要給他更明確的提示,才有可能給到你想要的答案。
寫文章——60分
說起用大模型來寫文章,那可真是不少人的“救星”??!畢竟,寫文章這事兒,對很多人來講,就已經(jīng)是生活中少有的“地獄”級任務(wù)。但用上大模型,居然寫的這么好,簡直“神”了。
不過,日常辦公或生活里,想發(fā)表點啥,用大模型寫寫,完全沒問題。咱們也不求它寫得多么準確無誤,多么精彩絕倫,只要能給點修改意見,或者啟發(fā)點思路,就知足了。
但是,如果要依賴大模型生成的專業(yè)的內(nèi)容當(dāng)前來講,還是很難達到。
繼續(xù)以上面的張三案件來講,我們當(dāng)前就是在用大模型去幫助檢察官做《起訴書》、《審查報告》等法律文書的生成。
依靠開源的大模型,是可以達到60分的效果的。
但要想讓大模型寫得更好,那就得下點功夫了。得不斷優(yōu)化提示詞,還得給它喂更多的法律文書數(shù)據(jù),讓它變得更“聰明”,更懂咱們的法律行話,更像一個有資深辦案經(jīng)驗的檢察官。
總的來說,大模型在規(guī)則計算、要素提取、內(nèi)容摘要、文書生成這些方面,已經(jīng)算是60分以上的“好學(xué)生”了。但要想讓它考到80分,那還得定向訓(xùn)練,喂行業(yè)數(shù)據(jù),調(diào)整提示詞,加各種約束條件。
作者:武林,公眾號:肖武林
本文由@武林 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!