大模型在金融領(lǐng)域落地會(huì)遇到哪些坑?
大模型的熱度已經(jīng)高了很久了,但在具體的行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時(shí),會(huì)遇到不少的問(wèn)題。這篇文章,作者分享了自己在金融領(lǐng)域的落地經(jīng)驗(yàn),希望能幫到大家。
一、我們做了哪些場(chǎng)景?
- 客服場(chǎng)景下的會(huì)話小結(jié)
- 知識(shí)庫(kù)的智能搜索:LLM+向量知識(shí)庫(kù)+ES兜底
- 知識(shí)實(shí)時(shí)智能推薦
- 代碼輔助
二、遇到了哪些坑
1. 會(huì)話小結(jié)
大模型應(yīng)用準(zhǔn)確率怎么提升?
大模型不像是傳統(tǒng)的nlp,雖然大模型準(zhǔn)確率起點(diǎn)高,但是不像nlp可以依靠業(yè)務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化,那么大模型的云應(yīng)用調(diào)用方(不做本地化和finetun情況下)在業(yè)務(wù)應(yīng)用中如何進(jìn)行模型效果的評(píng)價(jià)和業(yè)務(wù)使用效果的優(yōu)化?就成了一道考題。
剛上線你會(huì)發(fā)現(xiàn)準(zhǔn)確率在60%左右,業(yè)務(wù)想要繼續(xù)提升,部分算法同學(xué)會(huì)說(shuō)模型能力是調(diào)用別人的,無(wú)法進(jìn)行數(shù)據(jù)回流迭代,我也沒(méi)辦法?這時(shí)候要擺爛還是繼續(xù)想辦法努力?
幻覺(jué)問(wèn)題:gpt針對(duì)短對(duì)話的小結(jié)會(huì)進(jìn)行自我創(chuàng)造(亂編),這個(gè)在業(yè)務(wù)上是很難被接受的。
實(shí)時(shí)場(chǎng)景的時(shí)延問(wèn)題:調(diào)大模型的云應(yīng)用尤其是gpt,每次請(qǐng)求到返回的時(shí)間問(wèn)題無(wú)法優(yōu)化。
對(duì)于坐席輔助的場(chǎng)景時(shí)延要求極高,會(huì)話小結(jié)是為了幫助人工自動(dòng)寫(xiě)事件小結(jié)的,超過(guò)5s的小結(jié)基本就失去了幫助坐席減少話后時(shí)長(zhǎng)的作用,但是即使在只調(diào)用一次gpt進(jìn)行小結(jié)的情況下,平均時(shí)延也在10s左右
業(yè)務(wù)上評(píng)價(jià)會(huì)話小結(jié)的指標(biāo)為:要素完備性、要素準(zhǔn)確率、業(yè)務(wù)接受率。如對(duì)會(huì)話小結(jié)這幾個(gè)方面要求較高(細(xì)分場(chǎng)景業(yè)務(wù)細(xì)則,專(zhuān)有名詞),就需要在通用格式的會(huì)話小結(jié)中再加入業(yè)務(wù)要素的補(bǔ)充,則需要多次調(diào)用gpt的場(chǎng)景下,小結(jié)的時(shí)延會(huì)在30s左右。
超過(guò)30s后還要不要繼續(xù)回調(diào)用?前端頁(yè)面還要不要進(jìn)行輪詢(xún)?
連接調(diào)用不穩(wěn)定會(huì)產(chǎn)生漏損:大模型調(diào)用會(huì)有失敗的情況,就像大家用chatgpt的應(yīng)用時(shí)遇到偶發(fā)的不響應(yīng)的情況,這種情況在c端大家容忍度比較高,但是在b端,尤其是嵌入核心作業(yè)流程的場(chǎng)景下,業(yè)務(wù)對(duì)于偶發(fā)的漏損情況比較敏感,小結(jié)的漏損率會(huì)在5%左右。
2. 知識(shí)庫(kù)應(yīng)用
相比坐席輔助,知識(shí)庫(kù)是一個(gè)對(duì)AI錯(cuò)誤容忍率更低的場(chǎng)景,體現(xiàn)在下面的場(chǎng)景:
- 數(shù)據(jù)同步問(wèn)題:業(yè)務(wù)人員批量新增、刪除、更新知識(shí)的時(shí)候,后端調(diào)用大模型接口進(jìn)行embedding或者tokenization的時(shí)候,如遇到大模型調(diào)用不穩(wěn)定報(bào)錯(cuò)就會(huì)導(dǎo)致數(shù)據(jù)同步出現(xiàn)問(wèn)題。
- 時(shí)延、并發(fā)問(wèn)題:gpt模型的請(qǐng)求數(shù)有限制,針對(duì)高并發(fā)(知識(shí)庫(kù)上千人使用),搜索時(shí)延要求高(1-2s)的情況下,會(huì)有比較大的壓力,也會(huì)有偶發(fā)的大模型調(diào)用出錯(cuò)的問(wèn)題。
三、探索解決方案
會(huì)話小結(jié):
搭建“NLP+ChatGPT”的雙層模型,確保業(yè)務(wù)效果的同時(shí)又能節(jié)省大模型的使用費(fèi)用,針對(duì)大模型應(yīng)用在過(guò)短對(duì)話時(shí)會(huì)出現(xiàn)“聯(lián)想和想象”的問(wèn)題,增加了NLP過(guò)濾(過(guò)濾掉無(wú)效對(duì)話)
針對(duì)大模型業(yè)務(wù)應(yīng)用后準(zhǔn)確率需要提升,但很難靠傳統(tǒng)NLP標(biāo)注的方法進(jìn)行學(xué)習(xí)和訓(xùn)練后迭代的問(wèn)題,聯(lián)合業(yè)務(wù)進(jìn)行了多輪探討和嘗試,用“業(yè)務(wù)要素完備率+關(guān)鍵要素準(zhǔn)確率+業(yè)務(wù)接受度”進(jìn)行評(píng)價(jià),針對(duì)業(yè)務(wù)接受度差的部分,詳細(xì)去看原因,并且提煉通用問(wèn)題進(jìn)行優(yōu)化,再深入業(yè)務(wù)總結(jié)不同場(chǎng)景小結(jié)的業(yè)務(wù)要求規(guī)則并進(jìn)行提煉,融入prompt,準(zhǔn)確率從57%-82%,準(zhǔn)確率的提升只用了2輪數(shù)據(jù)標(biāo)注和反饋(每次100條),大大節(jié)省了傳統(tǒng) NLP項(xiàng)目大樣本數(shù)據(jù)標(biāo)注的工作
針對(duì)漏損的進(jìn)行批量補(bǔ)跑;監(jiān)測(cè)模型穩(wěn)定性指標(biāo)-小結(jié)平均時(shí)延、小結(jié)的漏損率
坐席輔助:
幻覺(jué)這個(gè)問(wèn)題我們是用GPT+NLP雙模型來(lái)減少亂編,比如客服與客戶(hù)對(duì)話的AI摘要會(huì)預(yù)設(shè)業(yè)務(wù)關(guān)鍵要素,盡量都覆蓋到,且涉及金額、數(shù)量或時(shí)間這類(lèi)都會(huì)提取參數(shù)記錄,需要走下個(gè)流程分支的會(huì)自動(dòng)生成工單任務(wù)流轉(zhuǎn)…
投訴類(lèi)會(huì)有客訴評(píng)分,按歷史接觸的客訴傾向語(yǔ)義點(diǎn)及當(dāng)通電話的音量語(yǔ)速等計(jì)算怒氣值,客服的話術(shù)除了情緒安撫外更多是理解客戶(hù)解決其問(wèn)題
ToC不敢直接用,是做了人工中轉(zhuǎn),比如側(cè)邊欄根據(jù)對(duì)話命中意圖或標(biāo)簽自動(dòng)推薦最優(yōu)話術(shù),按相關(guān)度排序,人工可任選一鍵發(fā)送,也可通過(guò)API對(duì)接GPT提問(wèn)后生成話術(shù)
知識(shí)庫(kù):
- 不穩(wěn)定的情況利用Kafka進(jìn)行依次消費(fèi),任務(wù)失敗后進(jìn)行告警并且重新跑
- 多個(gè)大模型的api并行處理,提高并發(fā)承載力
- 大模型+ES多重召回機(jī)制
此外我們?cè)趯?shí)踐過(guò)程中也參考了行業(yè)資深大佬關(guān)于向量知識(shí)庫(kù)應(yīng)用的見(jiàn)解,很有用,引用如下:
首先,向量化就不是唯一解,也不是全場(chǎng)景最優(yōu)解。
**第一,向量化匹配是有能力上限的。**搜索引擎實(shí)現(xiàn)語(yǔ)義搜索已經(jīng)是好幾年的事情了,為什么一直無(wú)法上線,自然有他的匹配精確度瓶頸問(wèn)題。
第二,本質(zhì)是匹配問(wèn)題(即找到語(yǔ)義相似知識(shí)),NLP領(lǐng)域原本也有更優(yōu)美,更高效的方案,只是這波熱潮里,很多以前沒(méi)接觸過(guò)AI的朋友對(duì)之不熟悉罷了。
**第三,甚至不用AI技術(shù),用精確MVSOL、用策略規(guī)則也是一種解法,其至是重要解法。**舊AI時(shí)代的產(chǎn)品同學(xué)會(huì)非常熟悉這種“用規(guī)則/策略/產(chǎn)品設(shè)計(jì)”來(lái)彌補(bǔ)AI能力贏弱的問(wèn)題一一現(xiàn)在是因?yàn)樾袠I(yè)早期,大家被LLM的能力錯(cuò)誤迷惑,并且以往產(chǎn)品經(jīng)理的聲音還沒(méi)發(fā)出來(lái)而已。
**其次,在引入外部知識(shí)這個(gè)事情上,如果是特別專(zhuān)業(yè)的領(lǐng)域,純粹依賴(lài)向量、NLP、策略/規(guī)則在某些場(chǎng)景仍然不奏效。**因?yàn)槟P褪紫刃枰莆漳莻€(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí),才能在這樣一個(gè)基礎(chǔ)能力的加持下,用向量化等手段來(lái)便捷地解決外部知識(shí)引入問(wèn)題。
當(dāng)在模型在基礎(chǔ)知識(shí)中缺乏、或有錯(cuò)誤地學(xué)習(xí)到某些背景知識(shí),即使他有外部知識(shí)庫(kù)加持也是無(wú)效的最后,不要管是不是90%會(huì)被解決,對(duì)于某個(gè)具體業(yè)務(wù)而言,沒(méi)有90%,只有100%和0%;
用向量知識(shí)庫(kù)的補(bǔ)丁策略,這個(gè)認(rèn)知很有必要。
1、**把問(wèn)答域細(xì)化,**給檢索文本分類(lèi),打標(biāo)簽處理,以縮小召回目標(biāo)域,提升相關(guān)性。
2、增加問(wèn)答邏輯。如問(wèn)題與上下文是否相關(guān),上下文是否可以回答用戶(hù)問(wèn)題的判定邏輯,拒答邏輯。
3、不同種類(lèi)問(wèn)答的分流邏輯。打個(gè)比方,問(wèn)百科,問(wèn)醫(yī)藥,問(wèn)金融,走不同的回答邏輯。
4、使用多重召回邏輯?;谙蛄浚陬I(lǐng)域向量,基于es,基于編輯距離等,走投票策略。
5、**增加生成前判定,生成后判定邏輯。**前者判定適合是否該回答,是否該拒答,后者判定是否對(duì)自己回答有置信。
知識(shí)庫(kù)的搜索體驗(yàn)優(yōu)化:利用GIO進(jìn)行行為數(shù)據(jù)觀測(cè),P@3、P@5位置的準(zhǔn)確度評(píng)估
四、結(jié)束語(yǔ)
大模型的熱度已經(jīng)高了很久了,但我們和各位同行的老師聊,發(fā)現(xiàn)在金融行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時(shí),尤其是要能產(chǎn)生業(yè)務(wù)價(jià)值的落地中還是會(huì)遇到各種問(wèn)題,因此希望分享我們遇到的問(wèn)題和探索的經(jīng)驗(yàn)幫助也在做此類(lèi)項(xiàng)目的朋友避坑,當(dāng)然我們的方法不一定是最優(yōu)解,如大家有更好的方法和應(yīng)用方向,期望能夠交流!
本文由 @甜甜圈 Tina 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!