【知識圖譜系列01】初識知識圖譜:了解基礎(chǔ)原理、應(yīng)用與價值

1 評論 5340 瀏覽 46 收藏 9 分鐘

編輯導(dǎo)語:“無知識圖譜,不AI”,知識圖譜一直是AI領(lǐng)域不可不談的話題,各大公司都在搭建各自領(lǐng)域的知識圖譜,還有許多靠做知識圖譜起家的獨角獸公司。那么知識圖譜到底是什么?它為什么會被大家熱衷?它與傳統(tǒng)的數(shù)據(jù)庫存儲數(shù)據(jù)的方式有何不同?讓我們一起看看吧。

一、知識圖譜是什么?

如字面意思,知識圖譜可以拆解為“知識”和“圖譜”去理解。

知識,是人們在改造世界的實踐中所獲得的認(rèn)識和經(jīng)驗的總和。

圖譜,是一種強調(diào)鏈接的存儲方式。

知識圖譜其實就是存儲及表達(dá)知識的一種方式。

但一個知識的儲存方式為什么會被單獨提出來?甚至被Google作為一項技術(shù)項目單獨提出來?

首先得了解知識在認(rèn)知中起到的作用。

其實在Google之前,知識圖譜的前身:語義網(wǎng)絡(luò)早在1960年代就被提出,當(dāng)時是作為知識表示的一種方法被提出,主要應(yīng)用于自然語言理解領(lǐng)域(讓機器能夠理解語言)。

【知識圖譜入門】初識知識圖譜

知識圖譜演化的重要節(jié)點

正如人去理解一段話所表達(dá)的意思時,也用到了知識,比如“阿偉手上拿著剛發(fā)布的蘋果”,這句話要能被正確理解,離不開對應(yīng)的知識,至少得知道蘋果除了是吃的,還可以是個手機牌子。

也就是說知識圖譜起源是為了讓機器更好的理解語言,通過建立起知識庫,這種方法企圖讓機器擁有更多的“知識點”,能進(jìn)行更多的聯(lián)想及推理,對信息的理解更到位。

【知識圖譜入門】初識知識圖譜

知識圖譜在人工智能中充當(dāng)“記憶”的角色

知識的作用不僅限于文本,對圖片也一樣。

解讀出的感受是又油又土十分好笑,這其中也運用了知識聯(lián)想,聯(lián)想了演員在社交媒體中的人設(shè)形象,當(dāng)前的表情及動作,聯(lián)想了發(fā)圖者與自己的關(guān)系,于是會心一笑。

二、為什么是圖譜?

為什么演化到目前階段,是通過圖譜去存儲知識,而不是傳統(tǒng)數(shù)據(jù)庫?

我認(rèn)為有兩點:

第一是因為圖譜的存儲結(jié)構(gòu)足夠簡單,圖譜通過“三元組”存儲知識,即頭實體、關(guān)系,尾實體組成;

比如:蘋果手機是蘋果公司旗下的產(chǎn)品,抽象成知識表達(dá)的三元組即是:

【知識圖譜入門】初識知識圖譜

幾乎所有的能通過符號表示的知識都能用這個結(jié)構(gòu)進(jìn)行儲存。

第二是因為互聯(lián)思維的普及,在強調(diào)萬物互聯(lián)的時代,圖譜這種注重鏈接的存儲方式能串聯(lián)不同領(lǐng)域的知識,從而挖掘其中關(guān)系隱藏的價值。

三、知識圖譜有什么用?

目前知識圖譜應(yīng)用主要有兩個大方向:

1. 輔助語言理解

知識圖譜在輔助語言理解方面起的作用有:

實體消歧:對文中提到的多義詞進(jìn)行精準(zhǔn)判斷,如上文提到的蘋果案例。

指代消解:對文中的代詞做出解釋,如他和它。

其中代表性的應(yīng)用如下:

(1)搜索

傳統(tǒng)搜索只提供對網(wǎng)頁的搜索(紅框部分),圖譜提供了對事物本身的描述,讓結(jié)果更直觀,更符合查詢的語義。

【知識圖譜入門】初識知識圖譜

圖譜搜索效果展示

(2)問答

垂直領(lǐng)域的問答系統(tǒng)會涉及到許多專業(yè)知識面的問題,舉個保險行業(yè)的例子:

比如當(dāng)客戶問到:“xx保險能不能保障脊髓灰質(zhì)炎?”

知識圖譜可以通過結(jié)合保險領(lǐng)域知識與醫(yī)療知識進(jìn)行推理,從而給出精準(zhǔn)答案。

【知識圖譜入門】初識知識圖譜

知識推理簡化示意圖

2. 輔助大數(shù)據(jù)分析

圖譜可以結(jié)合各類領(lǐng)域的知識,打造領(lǐng)域型的知識圖譜,目前在大數(shù)據(jù)分析方面,工業(yè)落地主要應(yīng)用如下:

(1)推薦

知識圖譜中包含了豐富的關(guān)聯(lián)性,可以為推薦系統(tǒng)提供部分信息來源;比如常見的推薦有電影推薦、音樂推薦。

加入圖譜推薦的好處主要是可解釋性強,能基于設(shè)定好的推薦路徑進(jìn)行精準(zhǔn)推送。

比如小丁喜歡聽《艾米莉》,《艾米莉》的樂隊是回春丹,那么同個樂隊的歌可以作為推薦。

【知識圖譜入門】初識知識圖譜

(2)風(fēng)控

圖結(jié)構(gòu)能非常好的與SNA(社交網(wǎng)絡(luò)分析)理論相結(jié)合,對團(tuán)伙欺詐這類型的風(fēng)險能起到非常好的挖掘作用;如洗錢行為可以綜合多筆交易、企業(yè)信息等看是否出現(xiàn)資金匯集等。

圖的優(yōu)勢在于能跨多度計算,能挖出埋藏較深度的風(fēng)險關(guān)系,比起傳統(tǒng)的偵察手段對團(tuán)伙作案的風(fēng)險能摸查得更全面。

三、無圖譜,不AI?

這句話在現(xiàn)階段,大家當(dāng)pr稿理解就好了,事實上很多的AI落地應(yīng)用,并沒有用到知識圖譜,知識圖譜本身也存在著相當(dāng)多的局限。

1. 工業(yè)落地視角

至少在目前階段,許多項目中知識圖譜的平替方案有很多,比如風(fēng)控場景,通過傳統(tǒng)的數(shù)據(jù)分析也能抓出許多問題案件;問答場景,搭建簡單的問答知識庫比直接建立知識圖譜效率更高,投入更小。

究其原因還是在于這項技術(shù)需要非常大的資源投入,需要大量的具有豐富業(yè)務(wù)知識的專家,圖算法專家等。

實際的工業(yè)落地項目中,幾乎有70%的時間投入在圖譜數(shù)據(jù)的獲取、清洗、結(jié)構(gòu)化上,而像知識框架的建設(shè)、圖應(yīng)用只占了不到30%的時間。

2. 技術(shù)視角

上文提到,知識圖譜的三元組形式能表示幾乎所有的符號型知識,即能被很好表達(dá)的顯性知識,但現(xiàn)實中存在著很多知識是隱性的,比如一項技能,彈鋼琴光知道樂理但沒有熟練的指法也不行。

且知識圖譜對于數(shù)據(jù)的結(jié)構(gòu)化程度要求十分之高,但現(xiàn)實中大部分業(yè)務(wù)數(shù)據(jù)是非結(jié)構(gòu)化的,如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化,而這是一道還沒有被解決的業(yè)界難題,是NLP的瓶頸。

四、結(jié)語

對每項新技術(shù),我們應(yīng)看到技術(shù)未來的發(fā)展空間,同時也要看到技術(shù)在當(dāng)下的局限性。

保持對技術(shù)的理解、思考與反思,才能將技術(shù)真正落地。

 

本文由 @產(chǎn)品哲思 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 寫的很好,希望能看到后續(xù)內(nèi)容

    來自浙江 回復(fù)