如何評測一個智能對話系統(tǒng) (三)
本文將把目光聚焦到分布式評測方法的具體實現(xiàn)細節(jié)上,為大家介紹評測系統(tǒng)標注數(shù)據(jù)的采樣,標注問題的設(shè)計以及問題背后的技術(shù)原理。
一、評測標注任務(wù)的數(shù)據(jù)采集與問題設(shè)計
在上一章中我們介紹了目前業(yè)界比較流行的智能對話評測方法,包括人工評測和自動評測。闡述了不同評測方法的優(yōu)勢與不足,并解釋了人工評測在智能對話評測任務(wù)中的重要性和必要性。
之后,我們介紹了分布式的評測方法。即把一個問題分解成:語法質(zhì)量;內(nèi)容質(zhì)量;內(nèi)容關(guān)聯(lián)度;邏輯關(guān)聯(lián)度;情感強度;發(fā)散性六個不同的維度。并以這六個維度為思考角度,分別對一個對話系統(tǒng)的對話內(nèi)容進行評判。
分布式的評測方法就是將問題拆分成多個維度,再分解為可操作的問題,分別進行回答。最后整理合并,計算出一個具有參考價值的結(jié)果。復(fù)雜的問題,答案往往是辯證的,而分布式統(tǒng)計的方法恰恰能夠較好的處理信息龐大的復(fù)雜問題。
接下來,讓我們將目光聚焦到分布式評測方法的具體實現(xiàn)細節(jié)上。筆者將在本章為大家介紹評測系統(tǒng)標注數(shù)據(jù)的采樣,標注問題的設(shè)計以及問題背后的技術(shù)原理。
1. 數(shù)據(jù)樣本
想要創(chuàng)建一個有效的評測標注任務(wù),我們首先需要制作一組數(shù)據(jù)集,也就是用來評測對話系統(tǒng)的問題集(或者說是query集,因為輸入內(nèi)容不局限于疑問句)。
用于對話評測的query集往往是一套包含各種形式和類別的自然語句。目前各大NLP相關(guān)的競賽和研究報告中,會有一些開源的數(shù)據(jù)集供研究者使用。不過,這些數(shù)據(jù)集多以英文為主。因而,我們需要有針對性的為評估任務(wù)整理一份中文樣本數(shù)據(jù)集。
中國漢語可謂博大精深,客觀的講,一套簡單的數(shù)據(jù)集不可能囊括所有漢語中的對話意圖和語言使用場景。因此,理論上講,樣本的數(shù)據(jù)量一定是越多越好(用于訓(xùn)練語言模型的數(shù)據(jù)常在億級以上)。
然而,為了便于評測標注任務(wù)的執(zhí)行,我們希望標注的題目盡可能的少。(這樣標注人員就可以在較短的時間完成標注)于是,以盡可能少的數(shù)據(jù)量囊括盡可能多的語言話題成了樣本數(shù)據(jù)的重點和難點。
在這里,筆者將自己收集和整理樣本數(shù)據(jù)的方法與大家分享,希望大家可以借鑒筆者的方法,整理屬于自己的評測數(shù)據(jù)集。
由于數(shù)據(jù)保密的原因,筆者不便將數(shù)據(jù)內(nèi)容在這里完全公開(感興趣的朋友可搜索“NLPCC2019 – 開放領(lǐng)對話系統(tǒng)評測任務(wù)”,了解更多細節(jié))。
當然,筆者所做的數(shù)據(jù)集并不一定是最好的,如果有更好的數(shù)據(jù)集也歡迎大家與筆者分享和交流。
2. 數(shù)據(jù)采樣及細節(jié)描述
數(shù)據(jù)源:來自真實的用戶日志和互聯(lián)網(wǎng)社交媒體上的公開數(shù)據(jù)
獲取方式:通過腳本篩選和人工標注的方式從億級的原始數(shù)據(jù)中獲取數(shù)據(jù)池
話題分類:
- 通過百度開源信息獲得百度中發(fā)帖數(shù)前200的貼吧
- 通過百度貼吧分類將200個貼吧分為22個類別
- 從22個類別中提取出16個話題和2個無話題類別
樣本數(shù)據(jù):
- 針對每個話題,從數(shù)據(jù)池中抽取100個問題,共計1600個問題
- 從數(shù)據(jù)池中收集16個話題之外的100個問題
- 樣本數(shù)據(jù)集共計1700個問題
數(shù)據(jù)分配:1700個問題當中,有200題作為測試問題,其余1500題作為真實評測問題
3. 標注選項
有了評測的數(shù)據(jù)集,接下來我們還需要設(shè)計標注的具體任務(wù)。(annotation task)為了能夠更加準確且高效的評測一個對話系統(tǒng)的表現(xiàn),評測的標注任務(wù)需要秉持兩個基本原則:客觀和精簡。
對話評測的底層方法論是從6個不同的維度分布式的評測一個對話系統(tǒng),在評測的過程中,我們主要是在判斷被評測的對話系統(tǒng)是否能夠滿足這6個維度的信息特征。為了能夠更加直觀的進行判斷,我們將6個維度的評判分解成12個封閉式問題(True or False question)。封閉式的問題能夠幫助評測者盡可能的避免主觀思考的模式,相對快速的給出理性的評判。
以下是筆者針對對話評估任務(wù)設(shè)計的12個問題,以及相應(yīng)的幾個維度:
語法質(zhì)量:
- 回復(fù)是不是符合正確的語法
- 回復(fù)是不是有與上文內(nèi)容相關(guān)或重疊的實體詞
- 回復(fù)是不是明顯的書面化表達
內(nèi)容質(zhì)量:
- 回復(fù)內(nèi)容是不是不可以被接受(色情,暴力,辱罵,政治等)
- 回復(fù)內(nèi)容是不是不含糊,不存在歧義
- 回復(fù)內(nèi)容是不是信息量適當
內(nèi)容關(guān)聯(lián)度:
- 回復(fù)內(nèi)容是不是看上去正確理解了上文意圖
邏輯關(guān)聯(lián)度:
- 回復(fù)內(nèi)容是不是可以自然的與上文銜接
情感強度:
- 回復(fù)是不是有主觀態(tài)度或明顯的情緒表達
- 回復(fù)內(nèi)容是不是會引人發(fā)笑
發(fā)散性:
- 回復(fù)是不是有發(fā)散,生成新的內(nèi)容或?qū)嶓w
- 回復(fù)是不是能讓用戶知道接下來該說什么
4. 標注類型
標注任務(wù)的類型包括基本標注和特殊標注。
一般情況下,在評測一個答案的時候,我們會有限判斷其內(nèi)容是否可以被接受。如果回復(fù)可以被接受,則繼續(xù)從多個維度對這個回復(fù)進行評測。如果回復(fù)不可以被接受,則直接跳過其他問題,將這組問答對標為不合格。
我們將“回復(fù)是不是符合正確的語法“與“回復(fù)內(nèi)容是不是不可以被接受”這兩條評測問題整合到一起作為特殊標注類型,而所有其他的評測問題則都是基本標注類型。
5. 技術(shù)理論依據(jù)
雖然,上面提到的大多數(shù)評測標注問題都是在分布式對話評測方法的基礎(chǔ)上而創(chuàng)建,我們依然需要有足夠的技術(shù)理論作為參考和支持。
一方面,經(jīng)典技術(shù)理論的支持可以使整個評測方法更具說服力,另一方面,我們可以通過技術(shù)理論中的數(shù)學(xué)模型,部分的實現(xiàn)一個對話系統(tǒng)的自動化評測。
在有效評判市場上智能對話類產(chǎn)品表現(xiàn)的同時,也具備了一定的科研價值。
語法和內(nèi)容質(zhì)量:參考了常用的NLP評測方法理論,如PPL,BLEU和Distinct等。
關(guān)聯(lián)度和發(fā)散性:名詞實體變化統(tǒng)計(NER)和LSTM深度學(xué)習(xí)算法針對多輪對話概率的計算。
情感強度:基于情感分析(Sentiment Analysis)的一些算法和理論支持。
二、總結(jié)
本章我們介紹了分布式對話系統(tǒng)評測方法的具體實現(xiàn)細節(jié),包括數(shù)據(jù)的分類和采樣,標注問題的設(shè)計和其背后的技術(shù)原理。我們詳細闡述了獲取標注數(shù)據(jù),以及定位語言數(shù)據(jù)話題類型的方法。同時,我們還介紹了基于6個維度的信息特征而分解出來的12個封閉式問題。我們將數(shù)據(jù)與問題相互對應(yīng),就形成一份可操作,可統(tǒng)計的對話評測標注任務(wù)。
不同的對話系統(tǒng)有不同的側(cè)重點,有的對話系統(tǒng)比較擅長單輪的問答對話,有的對話系統(tǒng)則在多輪對話的場景下有更好的表現(xiàn)。我將在接下來的兩篇文章中,分別介紹如何使用分布式對話評測方法進行單輪對話系統(tǒng)的評測與多輪對話系統(tǒng)的評測。
本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
您好,我們目前在做有關(guān)NLP自然語音處理相關(guān)的內(nèi)容,可以加您微信請教一下相關(guān)問題么
你好~不是6個維度嗎?為什么12個問題只是針對于5個維度呢?
非常感謝你的反饋。之前這里編輯的時候出了問題,已經(jīng)訂正了
沙發(fā)???
官方認證沙發(fā)