大模型產(chǎn)品真實(shí)測(cè)評(píng)(Chat-GPT3.5、文心大模型3.5、通義千問(wèn)、星火)
國(guó)內(nèi)出了一系列大模型,那么到底哪一個(gè)更聰明呢?本文通過(guò)一個(gè)真實(shí)的場(chǎng)景事件來(lái)測(cè)評(píng)一下,一起來(lái)看看吧。
由于業(yè)務(wù)升級(jí)和迭代的訴求,近來(lái)在對(duì)國(guó)內(nèi)外的大模型產(chǎn)品進(jìn)行業(yè)務(wù)選型,所以本文通過(guò)一個(gè)真實(shí)的場(chǎng)景事件來(lái)測(cè)評(píng)一下,到底誰(shuí)更聰明~
企業(yè)業(yè)務(wù)場(chǎng)景:智能客服迭代優(yōu)化
- 語(yǔ)音轉(zhuǎn)文字,(包含多人對(duì)話、多方言對(duì)話、長(zhǎng)語(yǔ)音識(shí)別)
- 企業(yè)知識(shí)庫(kù)錄入,員工通過(guò)對(duì)話流查詢知識(shí)庫(kù)信息;
- 客服坐席助手:能夠通過(guò)文字判斷出現(xiàn)在的場(chǎng)景,提供具體的指導(dǎo)方案;
以上是粗略的業(yè)務(wù)方的需求進(jìn)行概括,所以幾個(gè)產(chǎn)品進(jìn)行測(cè)評(píng)。先不討論技術(shù)指標(biāo)、數(shù)據(jù)安全性的層面,這些內(nèi)容后續(xù)會(huì)逐步分享。
本周正好發(fā)生了一件烏龍事件,我講事件和對(duì)話流喂給幾個(gè)大模型,看看誰(shuí)理解了這件事,本文想分享一件非常有趣的案例:
本次測(cè)評(píng)對(duì)象:Chat- GPT 3.5 、文心大模型3.5、通義千問(wèn)、星火大模型
事件還原:
我原定放在門口的退貨快遞鼠標(biāo)被保潔阿姨誤認(rèn)為是垃圾清理走了,我認(rèn)為是丟件通知了管家?guī)兔聪?,在管家的協(xié)助下,找到保潔阿姨找回快遞,但是丟了一個(gè)配件;此時(shí)我需要聯(lián)系官方客服確定此時(shí)是否支持退貨,or給一個(gè)賠償配件的錢,我找保潔進(jìn)行賠償。
所以這個(gè)事情下,我找了某東的官方客服進(jìn)行情況說(shuō)明:
需求:給出這種場(chǎng)景下的售后方案;
對(duì)話截圖還原:
首先幾家都不支持識(shí)別圖片,需要我轉(zhuǎn)文本一遍,所以我就用了微信的這個(gè)圖片文字識(shí)別能力,刪除了一部分其他明顯不是對(duì)話流的文本。
值得比較的問(wèn)題
1. 對(duì)話流投喂拆分段落
拆分準(zhǔn)確率:Chat-GPT>通義千問(wèn)>文心
這塊完全訊飛垮了,沒拆分出來(lái);
文心:按照對(duì)話人進(jìn)行拆分,但是沒有整合,準(zhǔn)確率上:有5句分錯(cuò)人
通義:按照對(duì)話人進(jìn)行拆分和合并,有2句話分錯(cuò)人
訊飛:完全沒分區(qū)分出來(lái),準(zhǔn)確率不做評(píng)估
Chat-gpt:區(qū)分對(duì)話人進(jìn)行并進(jìn)行整理,主動(dòng)清理了部分雜亂數(shù)據(jù),1句分錯(cuò)人;
2. 在這個(gè)場(chǎng)景中,客戶的訴求是什么呢
對(duì)比:Chat-GPT=通義>訊飛>文心
[fancyad id=”45″
我這里更想知道的是這種情形下:
- 配件缺失情況下是否支持退貨,或者可以以補(bǔ)差價(jià)的形式進(jìn)行退貨;
- 急切處理
文心:理解有些偏差,第一點(diǎn)完全不對(duì);表達(dá)啰嗦;
Chat- GPT:第一意圖理解準(zhǔn)確,表達(dá)清晰
通義:意圖理解準(zhǔn)確,表達(dá)清晰
訊飛:意圖理解準(zhǔn)確,沒有結(jié)構(gòu)化表達(dá)
3. 這里客戶是需要誰(shuí)來(lái)賠償這個(gè)配件的缺失呢
準(zhǔn)確率:通義>文心>星火>Chat-GPT
我的本意:
這里肯定是保潔阿姨的責(zé)任,管家找到她拿回快遞這里已經(jīng)是實(shí)錘了,但是有可能還有快遞沒有及時(shí)取件的鍋。
通義:第一遍問(wèn)答通用性回答;第二遍場(chǎng)景引導(dǎo)后,回答比較準(zhǔn)確;
文心:第一遍問(wèn)答能夠給出答案,1點(diǎn)點(diǎn)啰嗦;
Chat- GPT:完全沒回答準(zhǔn)確,偏離較遠(yuǎn),明顯感覺此時(shí)胡扯??
星火:第一遍問(wèn)答有答案,但是第二段cue到了商家,有點(diǎn)不對(duì)勁
4. 請(qǐng)還原一下這個(gè)事件的全部鏈路
補(bǔ)充信息:客戶在京東商城購(gòu)買了鼠標(biāo),退貨當(dāng)天12點(diǎn)離開家,將快遞放在門口的鞋柜上,下午15點(diǎn)快遞取件未找到,然后客戶聯(lián)系了管家協(xié)助,同時(shí)報(bào)警,其他的信息請(qǐng)通過(guò)對(duì)話流信息還原;
對(duì)比:通義>Chat-GPT>星火>文心
文心上來(lái)就開寫小作文哈哈哈哈,yy的內(nèi)容真不少。
文心:前面還正常,后面完全當(dāng)個(gè)小作文來(lái)些了,還有happy ending 哈哈哈哈
Chat-GPT:信息還原完整,有著重關(guān)注客戶的需求
通義:還原準(zhǔn)確,并且有參考之前聊的客服的內(nèi)容,單獨(dú)將客服的回復(fù)摘出來(lái)
星火:還原準(zhǔn)確,逐條有時(shí)間線
所以對(duì)于這個(gè)事件,請(qǐng)進(jìn)行總結(jié),包含事件的發(fā)生的場(chǎng)景還原,責(zé)任方,賠償方、客戶希望的解決方案,客服團(tuán)隊(duì)如何引以為戒優(yōu)化工作流程、以及對(duì)于客戶的賠償辦法。
對(duì)比:通義>Chat-GPT>星火>文心(這里通義非常優(yōu)秀)
Chat- GPT:回答簡(jiǎn)潔,但是我認(rèn)為對(duì)與客服的提升,應(yīng)該要準(zhǔn)確的識(shí)別客戶的訴求,該加急處理就加急,這次明顯是沒有提供及時(shí)的解決方案
通義:回答十分優(yōu)秀,責(zé)任方和客戶意圖理解的都挺到位的,也根據(jù)當(dāng)前會(huì)話的主題,提供有效了流程建議
文心:又開始寫小作文了??!他真的好愛寫作文!
星火:基本對(duì)吧,但是把商城扯進(jìn)來(lái)了,中等準(zhǔn)確
這個(gè)事情,你認(rèn)為客戶是真的報(bào)警了還是嚇??头哪?。
這個(gè)問(wèn)題,也是最后想到的。
其實(shí)我沒報(bào)警,只是想讓客服給我趕緊處理,所以我把這個(gè)問(wèn)題作為本場(chǎng)測(cè)驗(yàn)的最后一問(wèn),果然,大家的回答都是一樣的哈哈。
結(jié)論:他們還是不知道我撒謊。
大家看看各自的回復(fù),暫無(wú)對(duì)比。
文心:不管報(bào)不報(bào)警,客服好好處理
通義:基本認(rèn)為報(bào)警
星火:和文心差不多
Chat- GPT:基本認(rèn)為報(bào)警
這次的測(cè)評(píng)事件,我準(zhǔn)備下周再找通義的售前聊一下解決方案。
本文由 @Cheese 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!