AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用
本文簡單介紹了NLP的主要技術(shù)以及應(yīng)用領(lǐng)域,適合希望成為人工智能產(chǎn)品經(jīng)理的產(chǎn)品新人閱讀。
一、前言
Google 2018年10月11日提出的BERT模型在11個NLP任務(wù)上的表現(xiàn)刷新了記錄(下圖),其中包括斯坦福大學(xué)著名的測試Question Answering(SQuAD v1.1),BERT在SQuAD全部兩個衡量指標(biāo)上超越了人類表現(xiàn)。
有人說這是自然語言理解領(lǐng)域幾個月來最重大的事件。Google BERT的出現(xiàn),被一些人認(rèn)為將改變NLP的研究模式。“這不是NLP的結(jié)束,甚至不是結(jié)束的開始。這可能是開始的結(jié)束。”有人借用丘吉爾的《The End of the Beginning》來形容這一突破的意義。
那么,什么是NLP,NLP又涉及了哪些技術(shù)?
圖片來源:https://rajpurkar.github.io/SQuAD-explorer/
二、什么是NLP?
1. 什么是語言?
語言是指生物同類之間由于溝通需要而制定的指令系統(tǒng),語言與邏輯相關(guān),目前只有人類才能使用體系完整的語言進(jìn)行溝通和思想交流。
2. 什么是自然語言?
自然語言通常會自然地隨文化發(fā)生演化,英語、漢語、日語都是具體種類的自然語言,這些自然語言履行著語言最原始的作用:人們進(jìn)行交互和思想交流的媒介性工具。
- 語音:與發(fā)音有關(guān)的學(xué)問,主要在語音技術(shù)中發(fā)揮作用。
- 音韻:由語音組合起來的讀音,即漢語拼音和四聲調(diào)。
- 詞態(tài):封裝了可用于自然語言理解的有用信息,其中信息量的大小取決于具體的語言種類。中文沒有太多的詞態(tài)變換,僅存在不同的偏旁,導(dǎo)致出現(xiàn)詞的性別轉(zhuǎn)換的情況。
- 句法:主要研究詞語如何組成合乎語法的句子,句法提供單詞組成句子的約束條件,為語義的合成提供框架。
- 語義和語用:自然語言所包含和表達(dá)的意思。
3. 什么是自然語言處理?
自然語言處理(Natural Language Processing,NLP):是計算機科學(xué),人工智能和語言學(xué)的交叉領(lǐng)域。目標(biāo)是讓計算機處理或“理解”自然語言,以執(zhí)行語言翻譯和問題回答等任務(wù)。
NLP包含自然語言理解(Natural Language Understanding,NLU) 和自然語言生成(Natural Language Generation, NLG)兩個重要方向,如下圖所示。
- 自然語言理解NLU旨在將人的語言形式轉(zhuǎn)化為機器可理解的、結(jié)構(gòu)化的、完整的語義表示,通俗來講就是讓計算機能夠理解和生成人類語言。
- 自然語言生成NLG旨在讓機器根據(jù)確定的結(jié)構(gòu)化數(shù)據(jù)、文本、音視頻等生成人類可以理解的自然語言形式的文本。
4. 自然語言處理的難度
- 自然語言千變?nèi)f化,沒有固定格式。同樣的意思可以使用多種句式來表達(dá),同樣的句子調(diào)整一個字、調(diào)整語調(diào)或者調(diào)整語序,表達(dá)的意思可能相差很多。
- 不斷有新的詞匯出現(xiàn),計算機需要不斷學(xué)習(xí)新的詞匯。
- 受語音識別準(zhǔn)確率的影響。
- 自然語言所表達(dá)的語義本身存在一定的不確定性,同一句話在不同場景/語境下的語義可能完全不同。
- 人類講話時往往出現(xiàn)不流暢、錯誤、重復(fù)等現(xiàn)象,而對機器來說,在它理解一句話時,這句話整體所表達(dá)的意思比其中每個詞的確切含義更加重要。
三、自然語言理解技術(shù)概述
1. 含義
自然語言理解以語言學(xué)為基礎(chǔ),融合邏輯學(xué)、計算機科學(xué)等學(xué)科,通過對語法、語義、語用的分析,獲取自然語言的語義表示。
2. 自然語言理解技術(shù)概述
2.1 基于規(guī)則的方法
(1)指利用規(guī)則定義如何如何從文本中提取語義。大致思路是人工定義很多語法規(guī)則,它們是表達(dá)某種特定語義的具體方式,然后自然語言理解模塊根據(jù)這些規(guī)則解析輸入該模塊的文本。
(2)優(yōu)點:靈活,可以定義各種各樣的規(guī)則,而且不依賴訓(xùn)練數(shù)據(jù);
(3)缺點:需要大量的、覆蓋不同場景的規(guī)則,且隨著規(guī)則數(shù)量的增長,對規(guī)則進(jìn)行人工維護(hù)的難度也會增加。
(4)結(jié)論:只適合用在相對簡單的場景,其優(yōu)勢在于可以快速實現(xiàn)一個簡單可用的語義理解模塊。
2.2 基于統(tǒng)計的方法
(1)通常使用大量的數(shù)據(jù)訓(xùn)練模型,并使用訓(xùn)練所得的模型執(zhí)行各種上層語義任務(wù)。
(2)優(yōu)點:數(shù)據(jù)驅(qū)動且健壯性較好;
(3)缺點:訓(xùn)練數(shù)據(jù)難以獲得且模型難以解釋和調(diào)參;
(4)通常使用數(shù)據(jù)驅(qū)動的方法解決分類和序列標(biāo)注方法。
2.3 在具體實踐中,通常將這兩種方法結(jié)合起來使用
(1)沒有數(shù)據(jù)及數(shù)據(jù)較少時先采取基于規(guī)則的方法,當(dāng)數(shù)據(jù)積累到一定規(guī)模時轉(zhuǎn)為使用基于統(tǒng)計的方法。
(2)在一些基于統(tǒng)計的方法可以覆蓋絕大多數(shù)場景,在一些其覆蓋不到的場景中使用基于規(guī)則的方法兜底,以此來保證自然語言理解的效果。
2.4 應(yīng)用
(1)意圖識別
- 實質(zhì):分類問題
- 輸入:句子的文本特征
- 輸出:句子文本特征所屬的意圖分類
- 算法:SVM、AdaBoost算法等
(2)實體抽取
- 實質(zhì):序列標(biāo)注
- 輸入:句子的文本特征
- 輸出:文本特征中的每個詞或每個字屬于某一實體的概率
- 算法:隱馬爾可夫模型(hidden Markov model,HMM),條件隨機場(conditional random field,CRF)
注:當(dāng)數(shù)據(jù)量足夠大時,使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法處理意圖識別和實體抽取任務(wù)可以取得更好的效果。
四、自然語言理解基本技術(shù)
自然語言理解基本技術(shù)分為詞法分析、句法分析、語義分析三類。
1. 詞法分析
詞法分析包括分詞和詞性標(biāo)注。
1.1 分詞 word segmentation
(1)含義:中文不同于英文,其沒有自然分隔符(明顯的空格標(biāo)記),因此漢語自然語言處理的首要工作就是將輸入的字串切分為單獨的詞語。
(2)分詞方法:
A、基于詞表匹配的方法:會逐字對字符串進(jìn)行掃描,發(fā)現(xiàn)字符串的子串和詞表中的詞相同就算匹配。
常見方法:有正向最大匹配法、逆向最大匹配法、雙向掃描法和逐詞遍歷法。
常見的基于詞表的分詞工具:IKAnalyzer、庖丁解牛等。
B、基于統(tǒng)計模型的方法:根據(jù)人工標(biāo)注的詞性和統(tǒng)計特征對中文進(jìn)行建模,通過模型計算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。
常見算法:HMM、CRF
常見的基于統(tǒng)計模型的分詞工具:ICTCLAS、Stanford word segmenter等。深度學(xué)習(xí)興起后,長短期記憶網(wǎng)絡(luò)LSTM結(jié)合CRF的方法得到了快速發(fā)展。
1.2 詞性標(biāo)注
(1)含義:詞性是詞語最基礎(chǔ)的語法屬性之一,因此詞性標(biāo)注Part-Of-Speech Tagging,POS Tagging是詞法分析的一部分。
(2)目的是為句子中的每個詞賦予一個特定的類別,即為分詞結(jié)果中的每個單詞標(biāo)注詞性。
(3)最重要的詞性為名詞、動詞、形容詞和副詞。
(4)模型:最初隱馬爾可夫、之后最大熵模型、支持向量機模型
(5)兩種方法:基于規(guī)則的方法、基于統(tǒng)計模型的方法
基于規(guī)則的詞性標(biāo)注:兼類詞搭配關(guān)系和上下文語境建造詞類消歧規(guī)則;
基于統(tǒng)計模型的詞性標(biāo)注:通過模型計算各類詞性出現(xiàn)的概率,將概率最大的詞性作為最終結(jié)果。
(6)常見方法:結(jié)構(gòu)感知器模型和條件隨機場模型。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,也提出了基于深層神經(jīng)網(wǎng)絡(luò)的詞性標(biāo)注方法。
(7)工具:standford log-linear part-of-speech tagger、哈工大的LTP工具等。
2. 句法分析
(1)含義:句法分析syntactic parsing的主要任務(wù)是對輸入的文本句子(字符串)進(jìn)行分析以得到句子句法結(jié)構(gòu)syntactic structure。
(2)原因:一方面是nlu任務(wù)自身的需求,另一方面可以為其他nlu任務(wù)提供支持。
(3)分類:根據(jù)句法結(jié)構(gòu)的不同表示形式,任務(wù)分為以下3類:
- 依存句法分析dependency syntactic parsing,主要任務(wù)是識別句子中詞匯之間的相互依存關(guān)系。
- 短語結(jié)構(gòu)句法分析phrase-structure syntactic parsing,也稱作為分句法分析constituent syntactic parsing,主要任務(wù)是識別句子中短語結(jié)構(gòu)和短語之間的層次句法關(guān)系。
- 深層文法句法分析,主要任務(wù)是利用深層文法,對句子進(jìn)行深層的句法及語義分析,這些深層文法包括詞匯化樹鄰接文法、詞匯功能文法、組合范疇文法等。
3. 語義分析
(1)語義,指的是自然語言所包含的意義,在計算機科學(xué)領(lǐng)域,可以將語義理解為數(shù)據(jù)對應(yīng)的現(xiàn)實世界中的事物所代表概念的含義。
(2)語義分析semantic analysis,指運用各種機器學(xué)習(xí)方法,讓機器學(xué)習(xí)與理解一段文本所表示的語義內(nèi)容。任何對語言的理解都可以歸為語義分析的范疇,涉及語言學(xué)、計算語言學(xué)、人工智能、機器學(xué)習(xí),甚至認(rèn)知語言。
(3)語義分析的最終目的是理解句子表達(dá)的真實含義。
- 語義分析在機器翻譯任務(wù)中有重要應(yīng)用。
- 基于語義的搜索一直是搜索追求的目標(biāo)。
- 語義分析是實現(xiàn)大數(shù)據(jù)的理解與價值發(fā)現(xiàn)的有效手段。
五、三種常用的自然語言表示模型
1. 詞袋模型,bag of words,BOW
(1)含義:詞袋模型認(rèn)為文檔中任意位置出現(xiàn)的任何單詞,都與該文檔的語義無關(guān)。通過詞袋模型,一個文檔可以轉(zhuǎn)化為一個向量,向量中的每個元素表示詞典中相應(yīng)元素在文檔中出現(xiàn)的次數(shù)。
(2)優(yōu)點:便于將源文檔模型化。
(3)缺點:并沒有表達(dá)單詞在原來句子中出現(xiàn)的次序。
2. TF-IDF(term frequency-inverse document frequency,詞頻-逆文檔頻率)
(1)含義:是一種基于統(tǒng)計的加權(quán)方法,常用于信息檢索領(lǐng)域,用具體詞匯在文檔中出現(xiàn)的次數(shù)和該詞匯在語料中出現(xiàn)的次數(shù)兩個值評估該詞匯對相關(guān)文檔的重要程度。TF指某詞語在該文檔中出現(xiàn)的次數(shù),IDF是詞語普遍重要性的度量。
(2)用途:常被搜索引擎用來評估文檔與用戶查詢之間的相關(guān)程度。
(3)核心思想:在一篇文檔中出現(xiàn)頻率高且在其他文檔中很少出現(xiàn)的詞匯有較好的類別區(qū)分能力,適用于分檔分類。
3. 詞嵌入word embedding
(1)用詞嵌入表示單詞是將深度學(xué)習(xí)引入自然語言處理的核心技術(shù)之一。
(2)來源:欲在自然語言理解領(lǐng)域使用機器學(xué)習(xí)技術(shù),則需要找到一種合適的、將自然語言數(shù)學(xué)化的方法。
(3)方法:最初使用獨熱表示one hot representation,即使用詞表大小維度的向量描述單詞,每個向量中多數(shù)元素為0,只有該詞匯在詞表中對應(yīng)位置的維度為1。獨熱表示難以發(fā)現(xiàn)同義、反義等關(guān)系。
(4)詞嵌入法在基于獨熱表示法的基本思想的同時,增加了單詞間的語義聯(lián)系,并降低了詞向量維度以避免維度災(zāi)難。
六、基于知識圖譜的自然語言理解
知識圖譜是知識表示與推理、數(shù)據(jù)庫、信息檢索、自然語言處理等多種技術(shù)發(fā)展和融合的產(chǎn)物。
更多關(guān)于知識圖譜的介紹可以查看筆者的另一篇文章:AI產(chǎn)品經(jīng)理必修課:知識圖譜的入門與應(yīng)用
七、自然語言生成NLG
1. 含義
自然語言生成作為人工智能和計算語言學(xué)的分支,其對應(yīng)的語言生成系統(tǒng)可以被看作基于語言信息處理的計算機模型,該模型從抽象的概念層次開始,通過選擇并執(zhí)行一定的語法和語義規(guī)則生成自然語言文本。
2. 自然語言生成和自然語言理解的異同
2.1 差異點:
自然語言理解實際上是被分析的文本的結(jié)構(gòu)和語義逐步清晰的過程;自然語言生成的研究重點是確定哪些內(nèi)容是滿足用戶需要必須生成的,哪些內(nèi)容是冗余的。
2.2 相同點:
(1)二者都需要利用詞典;
(2)二者都需要利用語法規(guī)則;
(3)二者都要解決指代、省略等語用問題。
3. 兩種架構(gòu)類型
3.1 流線型 pipeline
(1)含義:流線型的自然語言生成系統(tǒng)由幾個不同的模塊組成,每個模塊之間的交互僅限于輸入輸出,各模塊之間不透明、相互獨立。
(2)系統(tǒng)架構(gòu)
流線型的自然語言生成系統(tǒng)包括文本規(guī)劃、句子規(guī)劃、句法實現(xiàn)3個模塊。文本規(guī)劃決定說什么,句法實現(xiàn)決定怎么說,句子規(guī)劃負(fù)責(zé)讓句子更加連貫。
流程:文本規(guī)劃(交際目的、知識庫、規(guī)劃庫、用戶模型、話語歷史)、話語計劃、句子規(guī)劃(話語歷史、句子規(guī)劃規(guī)則)、句子計劃、句法實現(xiàn)(語法規(guī)則、詞典)、文本。
3.2 一體化型integrated
一體化型的自然語言生成系統(tǒng)是相互作用的,當(dāng)一個模塊內(nèi)部無法作出決策時,后續(xù)模塊可以參與該模塊的決策。
3.3 兩類架構(gòu)的差異
一體化型的自然語言生成系統(tǒng)更符合人腦的思維過程,但是實現(xiàn)較為困難,現(xiàn)實中較常用的是流線型的自然語言生成系統(tǒng)。
4. 兩種對話生成技術(shù)
4.1 檢索式對話生成技術(shù)
通過排序技術(shù)和深度匹配技術(shù)在已有的對話語料庫中找到適合當(dāng)前輸入的最佳回復(fù)。局限性:僅能以固定的語言模式對用戶輸入進(jìn)行回復(fù),而無法實現(xiàn)詞語的多樣性組合,因此無法滿足回復(fù)多樣性要求。
4.2 生成式對話生成技術(shù)
代表性技術(shù)是從已有的“人-人”對話中學(xué)習(xí)語言的組合模式,是在一種類似機器翻譯中常用的“編碼-解碼”的過程中逐字或逐詞地生成回復(fù),生成的回復(fù)有可能是從未在語料庫中出現(xiàn)的、由聊天機器人自己“創(chuàng)造”的句子。
5. 自然語言生成的挑戰(zhàn)
- 涉及文法開發(fā),需要將文法結(jié)構(gòu)和應(yīng)用特有的語義表征相關(guān)聯(lián),但由于自然語言中存在海量的文法結(jié)構(gòu),造成搜索空間巨大,如何避免生成有歧義輸出成了一個有挑戰(zhàn)的問題。
- 由于語言的上下文敏感性,生成語言時如何整合包括時間、地點、位置、用戶信息等在內(nèi)的上下文信息也是一個難題。
- 基于深度學(xué)習(xí)技術(shù)生成回復(fù)的對話模型很難解釋,也很難被人類理解,只能通過更好的語料和參數(shù)調(diào)整來改善對話模型。
6. 三種自然語言生成方式
6.1 基于檢索的自然語言生成
基于檢索的自然語言生成并不是如字面意思一樣生成自然語言,更多是在已有的對話語料中檢索出合適的回復(fù)。
優(yōu)點:實現(xiàn)相對簡單、容易部署美因茨在實際工程中得到了大量的應(yīng)用。
缺點:依賴于對話庫、回復(fù)不夠靈活等
6.2 基于模板的自然語言生成
自然語言生成模板由句子sentence模板,詞匯word模版組成。句子模版包含若干個含有變量的句子,詞匯模板則是句子模塊中的變量對應(yīng)的所有可能的值。
6.3 基于深度學(xué)習(xí)的自然語言生成
八、NLP在聊天機器人中的應(yīng)用
1. NLP應(yīng)用概覽
NLP作為人工智能的核心技術(shù),在機器翻譯、聊天機器人、語音識別等領(lǐng)域都有重要的應(yīng)用。
機器翻譯的代表如科大訊飛的翻譯機;聊天機器人例如微軟小冰、Amazon Alexa;語音識別如各種智能音箱。
NLP主要應(yīng)用領(lǐng)域,圖片來源:stateoftheart.ai
2. 聊天機器人的分類與應(yīng)用場景
聊天機器人作為NLP應(yīng)用的重點產(chǎn)品之一,可以按不同維度進(jìn)行細(xì)分。
- 基于應(yīng)用場景的聊天機器人分類:在線客服、娛樂、教育、個人助理、智能問答類。
- 基于實現(xiàn)方式的聊天機器人分類:檢索式和生成式。
- 基于功能的聊天機器人分類:問答系統(tǒng)、面向任務(wù)的對話系統(tǒng)、閑聊系統(tǒng)和主動推薦系統(tǒng)。
3. 聊天機器人系統(tǒng)框架
一個完整聊天機器人的系統(tǒng)架構(gòu)主要由語言識別、自然語言理解、對話管理、自然語言生成、語音合成等5個部分組成。
- 自動語音識別automatic speech recognition,ASR,負(fù)責(zé)將原始的語音信號轉(zhuǎn)換成文本信息。
- 自然語言理解natural language understanding,NLU,負(fù)責(zé)將識別到的文本信息轉(zhuǎn)換為機器可以理解的語義表示。
- 對話管理dialogue management,DM,負(fù)責(zé)基于當(dāng)前對話的狀態(tài)判斷系統(tǒng)應(yīng)該采取怎樣的動作。
- 自然語言生成natural language generation,NLG,負(fù)責(zé)將系統(tǒng)動作/系統(tǒng)回復(fù)轉(zhuǎn)變成自然語言文本。
- 語音合成text-to-speech,TTS,負(fù)責(zé)將自然語言文本轉(zhuǎn)變成語音信號輸出給用戶。
4. 聊天機器人的典型代表
- 硬件形態(tài):amazon echo、公子小白。
- 軟件形態(tài):Apple Siri、微軟小冰、微軟cortana、IBM watson、Google Now。
- 平臺:谷歌、微軟等公司對外提供聊天機器人框架bot framework,以sdk或saas服務(wù)的方式像第三方公司或個人開發(fā)者提供可以用于構(gòu)建特定應(yīng)用和領(lǐng)域的聊天機器人。代表:amazon Alexa(服務(wù)amazon lex)、微軟luis with bot(認(rèn)知服務(wù)cognitive services)、谷歌api.ai、Facebook wit.ai。
5. 聊天機器人的技術(shù)原理
常見的聊天機器人系統(tǒng)包括問答系統(tǒng)、面向任務(wù)的對話系統(tǒng)、閑聊系統(tǒng)、主動推薦系統(tǒng)。
問答系統(tǒng)
QA問答系統(tǒng)偏重于問句分析,旨在獲取問句的主題詞、問題詞、中心動詞。主要采取模板匹配和語義理解兩種方式。
面向任務(wù)的對話系統(tǒng)
通過對話管理(重點)和跟蹤當(dāng)前的對話狀態(tài),進(jìn)而明確用戶的目的和需求。聚焦于將用戶輸入的自然語言映射為用戶的意圖和相應(yīng)的槽位值。
閑聊系統(tǒng)
針對用戶沒有特定目的、沒有具體需求情況下的多輪人機對話,重點是對話管理(上下多輪交互)和自然語言理解兩個模塊。
主動推薦系統(tǒng)
處于起步階段,是人機自然交互的關(guān)鍵一環(huán),其作用更多是體現(xiàn)聊天機器人的認(rèn)知能力。
6. 聊天機器人系統(tǒng)中的自然語言理解模塊
聊天機器人系統(tǒng)中的自然語言理解模塊主要包括:實體識別named entity recognition、用戶意圖識別、用戶情感識別、指代消解、省略恢復(fù)、回復(fù)確認(rèn)及拒識判斷等。
- 實體識別:指識別自然語言中具有特定意義的實體,如人名、時間、地名及各種專有名詞。
- 用戶意圖識別:包括顯式意圖和隱式意圖,前者通常對應(yīng)一個明確的用戶需求,后者較難判斷。
- 情感識別:與用戶意圖類似,也分為顯式和隱式。
- 指代消解:指聊天主題背景一致的情況下,人們在對話過程中通常會習(xí)慣性地使用代詞指代出現(xiàn)過的某個實體或事件,或者為了方便表述省略句子部分成分的情況。
- 省略恢復(fù):自然語言理解模塊需要明確代詞指代的成分和句子中的省略的成分,唯有如此,聊天機器人才能正確理解用戶的輸入,給出合乎上下文語義的回復(fù)。
- 回復(fù)確認(rèn):當(dāng)用戶意圖、聊天信息等帶有一定的模糊性時,需要聊天機器人主動向用戶詢問,確認(rèn)用戶的意圖。
- 拒識判斷:指聊天機器人系統(tǒng)應(yīng)當(dāng)具備一定的拒識能力,主動拒絕識別及回復(fù)超出自身理解/回復(fù)范圍或者涉及敏感話題的用戶輸入。
#參考資料#
1、參考書籍:
《自然語言處理實踐—聊天機器人技術(shù)原理與應(yīng)用》,王昊奮,邵浩等
《人工智能產(chǎn)品經(jīng)理:人機對話系統(tǒng)設(shè)計邏輯探究》,朱鵬臻
2、NLP相關(guān)重要會議:
ACL、COLING、LREC、AAAI
3、相關(guān)網(wǎng)址:
中國科學(xué)院計算技術(shù)研究所·數(shù)字化室&軟件室:http://www.nlp.org.cn/
北大計算語言所:http://icl.pku.edu.cn/
麻省理工人工智能實驗室:http://www.csail.mit.edu/index.php
哈工大:http://ltp.ai/
復(fù)旦知識工廠:http://kw.fudan.edu.cn/
本文由 @Alan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
很多內(nèi)容都是自然語言處理實踐里面直接復(fù)制的??
所以有些內(nèi)容不太容易理解
完全看不懂 完蛋
問個問題,AI產(chǎn)品經(jīng)理需要對這些技術(shù)掌握到什么程度?為什么要對些技術(shù)了解這么深呢?
看著好吃力,說明自己確實缺的知識比較多,多多學(xué)習(xí)
不是你的錯,作者寫這篇文章估計是為了梳理自己對nlp理解的思路。因為提出的很多生澀的名詞時,沒有嘗試進(jìn)行任何引導(dǎo)性說明
條理清晰,內(nèi)容全面詳細(xì),先mark后學(xué) ??