AI產(chǎn)品經(jīng)理必懂的硬知識(shí)(一):應(yīng)用領(lǐng)域篇

4 評(píng)論 5265 瀏覽 39 收藏 31 分鐘

文章主要針對(duì)AI目前在各個(gè)比較熱門(mén)領(lǐng)域的應(yīng)用現(xiàn)狀展開(kāi)了梳理與分析,包含:計(jì)算機(jī)視覺(jué)、語(yǔ)音交互、自然語(yǔ)言處理和典型AI場(chǎng)景四個(gè)方面,與大家分享。

大家好,我是方舟,接下來(lái)我會(huì)出一個(gè)硬核知識(shí)系列,共三篇《AI產(chǎn)品經(jīng)理必懂的硬知識(shí)》,從應(yīng)用領(lǐng)域、常見(jiàn)概念與算法、自我進(jìn)階三個(gè)方面去闡述,這個(gè)系列算是榨干了我多個(gè)筆記。第一篇咱們就來(lái)談?wù)勀壳案鱾€(gè)主流應(yīng)用領(lǐng)域的現(xiàn)狀吧。有讀者反應(yīng)我的文章過(guò)于“干貨”,實(shí)在太長(zhǎng),要分好幾次看完,列個(gè)提綱吧。

一、計(jì)算機(jī)視覺(jué)(CV)

二、語(yǔ)音交互

(1)語(yǔ)音識(shí)別(ASR)

(2)語(yǔ)音合成(TTS)

三、自然語(yǔ)言處理(NLP)

四、典型AI場(chǎng)景

(1)智能機(jī)器人

(2)無(wú)人駕駛

(3)人臉識(shí)別(非手機(jī)端)

(4)視覺(jué)設(shè)計(jì)(手機(jī)端)

(5)自動(dòng)文字編輯

一、計(jì)算機(jī)視覺(jué)(CV)

計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使機(jī)器“看”的科學(xué),就是指用攝影機(jī)和計(jì)算機(jī)代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等機(jī)器視覺(jué)的應(yīng)用,是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,對(duì)采集的圖片或視頻進(jìn)行處理從而獲得相應(yīng)場(chǎng)景的三維信息,讓計(jì)算機(jī)具有對(duì)周?chē)澜绲目臻g物體進(jìn)行傳感、抽象、判斷的能力。

計(jì)算機(jī)視覺(jué)在現(xiàn)實(shí)場(chǎng)景中應(yīng)用價(jià)值主要體現(xiàn)在可以利用計(jì)算機(jī)對(duì)圖像和視頻的識(shí)別能力,替代部分人力工作,節(jié)省人力成本并提升工作效率。傳統(tǒng)的計(jì)算機(jī)視覺(jué)基本遵循圖像預(yù)處理、提取特征、建模、輸出的流程,不過(guò)利用深度學(xué)習(xí),很多問(wèn)題可以直接采用端到端,從輸入到輸出一氣呵成。

1. 研究?jī)?nèi)容

  1. 實(shí)際應(yīng)用中采集到的圖像的質(zhì)量通常都沒(méi)有實(shí)驗(yàn)室數(shù)據(jù)那么理想,光照條件不理想,采集圖像模糊等都是實(shí)際應(yīng)用中常見(jiàn)的問(wèn)題。所以首先需要校正成像過(guò)程中,系統(tǒng)引進(jìn)的光度學(xué)和幾何學(xué)的畸變,抑制和去除成像過(guò)程中引進(jìn)的噪聲,這些統(tǒng)稱(chēng)為圖像的恢復(fù)。
  2. 對(duì)輸入的原始圖像進(jìn)行預(yù)處理,這一過(guò)程利用了大量的圖像處理技術(shù)和算法,如:圖像濾波、圖像增強(qiáng)、邊緣檢測(cè)等,以便從圖像中抽取諸如角點(diǎn)、邊緣、線條、邊界以及色彩等關(guān)于場(chǎng)景的基本特征;這一過(guò)程還包含了各種圖像變換(如:校正)、圖像紋理檢測(cè)、圖像運(yùn)動(dòng)檢測(cè)等。
  3. 根據(jù)抽取的特征信息把反映三維客體的各個(gè)圖象基元,如:輪廓、線條、紋理、邊緣、邊界、物體的各個(gè)面等從圖象中分離出來(lái),并且建立起各個(gè)基元之間的拓樸學(xué)上的和幾何學(xué)上的關(guān)系——稱(chēng)之基元的分割和關(guān)系的確定。
  4. 計(jì)算機(jī)根據(jù)事先存貯在數(shù)據(jù)庫(kù)中的預(yù)知識(shí)模型,識(shí)別出各個(gè)基元或某些基元組合所代表的客觀世界中的某些實(shí)體——稱(chēng)之為模型匹配,以及根據(jù)圖象中各基元之間的關(guān)系,在預(yù)知識(shí)的指導(dǎo)下得出圖象所代表的實(shí)際景物的含義,得出圖象的解釋或描述。

2. 瓶頸

  1. 目前在實(shí)際應(yīng)用中采集到的數(shù)據(jù)還是不夠理想,光照條件、物體表面光澤、攝像機(jī)和空間位置變化都會(huì)影響數(shù)據(jù)質(zhì)量,雖然可以利用算法彌補(bǔ),但是很多情況下信息缺失無(wú)法利用算法來(lái)解決。
  2. 在一幅或多幅平面圖像中提取深度信息或表面傾斜信息并不是件容易的事,尤其是在灰度失真、幾何失真還有干擾的情況下求取多幅圖像之間的對(duì)應(yīng)特征更是一個(gè)難點(diǎn)。除了得到物體的三維信息外,在現(xiàn)實(shí)世界里,物體間相互遮擋,自身各部位間的遮擋使得圖像分拆更加復(fù)雜。
  3. 預(yù)知識(shí)設(shè)置的不同也使得同樣的圖像也會(huì)產(chǎn)生不同的識(shí)別結(jié)果,預(yù)知識(shí)在視覺(jué)系統(tǒng)中起著相當(dāng)重要的作用。在預(yù)知識(shí)庫(kù)中存放著各種實(shí)際可能遇到的物體的知識(shí)模型,和實(shí)際景物中各種物體之間的約束關(guān)系。計(jì)算機(jī)的作用是根據(jù)被分析的圖象中的各基元及其關(guān)系,利用預(yù)知識(shí)作為指導(dǎo),通過(guò)匹配、搜索和推理等手段,最終得到對(duì)圖象的描述。在整個(gè)過(guò)程中預(yù)知識(shí)時(shí)刻提供處理的樣板和證據(jù),每一步的處理結(jié)果隨時(shí)同預(yù)知識(shí)進(jìn)行對(duì)比,所以預(yù)知識(shí)設(shè)置會(huì)對(duì)圖像識(shí)別結(jié)果產(chǎn)生極大影響。

由于筆者本人是專(zhuān)門(mén)做AI CV這個(gè)方向產(chǎn)品的,因此未來(lái)的文章中關(guān)于CV的知識(shí)以及CV實(shí)際項(xiàng)目都會(huì)涉及很多。在之后的文章里針對(duì)視覺(jué)識(shí)別,特別是視覺(jué)識(shí)別里面的明星應(yīng)用人臉識(shí)別,我會(huì)很深入的去探討。其中人臉識(shí)別中所涉及的很多AI產(chǎn)品實(shí)現(xiàn)細(xì)節(jié)的拆解,從成像、預(yù)處理、算力估算到檢測(cè)、多目標(biāo)、跟蹤、分割、識(shí)別、算法精度測(cè)試模塊,如果弄懂弄透,再將這一塊體系延伸到車(chē)輛、動(dòng)物等其他視覺(jué)類(lèi)項(xiàng)目,基本原理都是類(lèi)似的,可謂一通百通。

二、語(yǔ)音交互

語(yǔ)音交互也是非常熱門(mén)的方向之一,其實(shí)語(yǔ)音交互整個(gè)流程里包含語(yǔ)音識(shí)別、自然語(yǔ)言處理和語(yǔ)音合成。自然語(yǔ)言處理很多時(shí)候是作為單獨(dú)的一個(gè)領(lǐng)域來(lái)研究的,所以這里暫且不展開(kāi),本文也將單獨(dú)介紹自然語(yǔ)言處理,所以此處只介紹語(yǔ)音識(shí)別和語(yǔ)音合成。

語(yǔ)音交互的最佳應(yīng)用場(chǎng)景便是眼睛不方便看,或者手不方便操作的時(shí)候?!安环奖憧础北容^典型的場(chǎng)景便是智能車(chē)載,“不方便操作”比較典型的場(chǎng)景便是智能音箱,這也是目前比較火的兩個(gè)細(xì)分方向。

一個(gè)完整的語(yǔ)音交互基本遵循下圖的流程:

經(jīng)典語(yǔ)音交互用例

1. 語(yǔ)音識(shí)別(ASR)

(1)研究?jī)?nèi)容

語(yǔ)音識(shí)別的輸入是聲音,屬于計(jì)算機(jī)無(wú)法直接處理的模擬信號(hào),所以需要將聲音轉(zhuǎn)化成計(jì)算機(jī)能處理的文字信息。傳統(tǒng)的識(shí)別方式需要通過(guò)編碼將其轉(zhuǎn)變?yōu)閿?shù)字信號(hào),并提取其中的特征進(jìn)行處理。

傳統(tǒng)方式的聲學(xué)模型一般采用隱馬爾可夫模型(HMM),處理流程是語(yǔ)音輸入——編碼(特征提?。獯a——輸出。

還有一種“端到端”的識(shí)別方式,一般采用深度神經(jīng)網(wǎng)絡(luò)(DNN),這種方式的聲學(xué)模型的輸入通??梢允褂酶嫉男盘?hào)特征(減少了編碼階段的工作),輸出也不再必須經(jīng)過(guò)音素等底層元素,可以直接是字母或者漢字。

在計(jì)算資源與模型的訓(xùn)練數(shù)據(jù)充足的情況下,“端到端”方式往往能達(dá)到更好的效果。目前的語(yǔ)音識(shí)別技術(shù)主要是通過(guò)DNN實(shí)現(xiàn)的。語(yǔ)音識(shí)別的效果一般用“識(shí)別率”,即識(shí)別文字與標(biāo)準(zhǔn)文字相匹配的字?jǐn)?shù)與標(biāo)準(zhǔn)文字總字?jǐn)?shù)的比例來(lái)衡量。目前中文通用語(yǔ)音連續(xù)識(shí)別的識(shí)別率最高可以達(dá)到97%。

(2)衍生研究?jī)?nèi)容

  • 麥克風(fēng)陣列:在家庭、會(huì)議室、戶外、商場(chǎng)等各種環(huán)境下,語(yǔ)音識(shí)別會(huì)有噪音、混響、人聲干擾、回聲等各種問(wèn)題。在這種需求背景下可以采用麥克風(fēng)陣列來(lái)解決。麥克風(fēng)陣列由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng),可以實(shí)現(xiàn)語(yǔ)音增強(qiáng)、聲源定位、去混響、聲源信號(hào)提取/分離。麥克風(fēng)陣列又分為:2麥克風(fēng)陣列、4麥克風(fēng)陣列、6麥克風(fēng)陣列、6+1麥克風(fēng)陣列。隨著麥克風(fēng)數(shù)量的增多,拾音的距離,噪聲抑制,聲源定位的角度,以及價(jià)格都會(huì)不同,所以要貼合實(shí)際應(yīng)用場(chǎng)景來(lái)找到最佳方案。
  • 遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別:解決遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別需要結(jié)合前后端共同完成。前端使用麥克風(fēng)陣列硬件,解決噪聲、混響、回聲等帶來(lái)的問(wèn)題,后端則利用近場(chǎng)遠(yuǎn)場(chǎng)的聲學(xué)規(guī)律不同構(gòu)建適合遠(yuǎn)場(chǎng)環(huán)境的聲學(xué)模型,前后端共同解決遠(yuǎn)場(chǎng)識(shí)別的問(wèn)題。
  • 語(yǔ)音喚醒:通過(guò)關(guān)鍵詞喚醒語(yǔ)音設(shè)備,通常都是3個(gè)音節(jié)以上的關(guān)鍵詞。例如:嘿Siri、和亞馬遜echo的Alexa。語(yǔ)音喚醒基本是在本地進(jìn)行的,必須在設(shè)備終端運(yùn)行,不能切入云平臺(tái)。因?yàn)橐粋€(gè)7×24小時(shí)監(jiān)聽(tīng)的設(shè)備要保護(hù)用戶隱私,只能做本地處理,而不能將音頻流聯(lián)網(wǎng)進(jìn)行云端處理。語(yǔ)音喚醒對(duì)喚醒響應(yīng)時(shí)間、功耗、喚醒效果都有要求。
  • 語(yǔ)音激活檢測(cè):判斷外界是否有有效語(yǔ)音,在低信噪比的遠(yuǎn)場(chǎng)尤為重要。

2. 語(yǔ)音合成(TTS)

(1)研究?jī)?nèi)容

是將文字轉(zhuǎn)化為語(yǔ)音(朗讀出來(lái))的過(guò)程,目前有兩種實(shí)現(xiàn)方法,分別是:拼接法和參數(shù)法。

  • 拼接法是把事先錄制的大量語(yǔ)音切碎成基本單元存儲(chǔ)起來(lái),再根據(jù)需要選取拼接而成。這種方法輸出語(yǔ)音質(zhì)量較高,但是數(shù)據(jù)庫(kù)要求過(guò)大。
  • 參數(shù)法是通過(guò)語(yǔ)音提取參數(shù)再轉(zhuǎn)化為波形,從而輸出語(yǔ)音。這種方法的數(shù)據(jù)庫(kù)要求小,但是聲音不可避免會(huì)有機(jī)械感。

DeepMind早前發(fā)布了一個(gè)機(jī)器學(xué)習(xí)語(yǔ)音生成模型WaveNet,直接生成原始音頻波形,可以對(duì)任意聲音建模,不依賴(lài)任何發(fā)音理論模型,能夠在文本轉(zhuǎn)語(yǔ)音和常規(guī)的音頻生成上得到出色的結(jié)果。

(2)瓶頸

個(gè)性化TTS數(shù)據(jù)需求量大,在用戶預(yù)期比較高的時(shí)候難滿足。需要AI產(chǎn)品經(jīng)理選擇用戶預(yù)期不苛刻的場(chǎng)景,或者在設(shè)計(jì)時(shí)管理好用戶預(yù)期。

三、自然語(yǔ)言處理(NLP)

1. 研究?jī)?nèi)容

自然語(yǔ)言處理是一門(mén)讓計(jì)算機(jī)理解、分析以及生成自然語(yǔ)言的學(xué)科,是理解和處理文字的過(guò)程,相當(dāng)于人類(lèi)的大腦。NLP是目前AI發(fā)展的核心瓶頸。整個(gè)NLP包括了句法語(yǔ)義分析、信息抽取、文本挖掘、機(jī)器翻譯、信息檢索、問(wèn)答系統(tǒng)、對(duì)話系統(tǒng)等范疇。

NLP大概的研究過(guò)程是:研制出可以表示語(yǔ)言能力的模型——提出各種方法來(lái)不斷提高語(yǔ)言模型的能力——根據(jù)語(yǔ)言模型來(lái)設(shè)計(jì)各種應(yīng)用系統(tǒng)——不斷地完善語(yǔ)言模型。自然語(yǔ)言理解和自然語(yǔ)言生成都屬于自然語(yǔ)言理解的概念范疇。

自然語(yǔ)言理解(NLU)模塊,著重解決的問(wèn)題是單句的語(yǔ)義理解,對(duì)用戶的問(wèn)題在句子級(jí)別進(jìn)行分類(lèi),明確意圖識(shí)別(Intent Classification);同時(shí)在詞級(jí)別找出用戶問(wèn)題中的關(guān)鍵實(shí)體,進(jìn)行實(shí)體槽填充(Slot Filling)。

一個(gè)簡(jiǎn)單的例子,用戶問(wèn)“我想吃冰激凌”,NLU模塊就可以識(shí)別出用戶的意圖是“尋找甜品店或超市”,而關(guān)鍵實(shí)體是“冰激淋”。有了意圖和關(guān)鍵實(shí)體,就方便了后面對(duì)話管理模塊進(jìn)行后端數(shù)據(jù)庫(kù)的查詢或是有缺失信息而來(lái)繼續(xù)多輪對(duì)話補(bǔ)全其它缺失的實(shí)體槽。

自然語(yǔ)言生成(NLG)模塊是機(jī)器與用戶交互的最后一公里路,目前自然語(yǔ)言生成大部分使用的方法仍然是基于規(guī)則的模板填充,有點(diǎn)像實(shí)體槽提取的反向操作,將最終查詢的結(jié)果嵌入到模板中生成回復(fù)。手動(dòng)生成模板之余,也有用深度學(xué)習(xí)的生成模型通過(guò)數(shù)據(jù)自主學(xué)習(xí)生成帶有實(shí)體槽的模板。

2. 應(yīng)用場(chǎng)景

自然語(yǔ)言處理作為CUI(Conversational User Interface,對(duì)話式交互)中非常重要的一部分,只要是CUI的應(yīng)用場(chǎng)景都需要自然語(yǔ)言處理發(fā)揮作用。除此之外,機(jī)器翻譯、文本分類(lèi)也都是自然語(yǔ)言處理的重要應(yīng)用領(lǐng)域。但是自然語(yǔ)言處理的應(yīng)用也是被吐槽最多的,經(jīng)典的就是“智能客戶不僅沒(méi)增加效率,還降低了效率”,相比CV,NLP這一塊帶給人的直觀震撼目前來(lái)看確實(shí)要小很多。

3. 瓶頸

(1)詞語(yǔ)實(shí)體邊界界定

自然語(yǔ)言是多輪的,一個(gè)句子不能孤立的看,要么有上下文,要么有前后輪對(duì)話,而正確劃分、界定不同詞語(yǔ)實(shí)體是正確理解語(yǔ)言的基礎(chǔ)。目前的深度學(xué)習(xí)技術(shù),在建模多輪和上下文的時(shí)候,難度遠(yuǎn)遠(yuǎn)超過(guò)了如語(yǔ)音識(shí)別、圖像識(shí)別的一輸入一輸出的問(wèn)題。所以語(yǔ)音識(shí)別或圖像識(shí)別做的好的企業(yè),不一定能做好自然語(yǔ)言處理。

(2)詞義消歧

詞義消歧包括多義詞消歧和指代消歧。多義詞是自然語(yǔ)言中非常普遍的現(xiàn)象,指代消歧是指正確理解代詞所代表的?或事物。例如:在復(fù)雜交談環(huán)境中,“他”到底指代誰(shuí)。詞義消歧還需要對(duì)文本上下文、交談環(huán)境和背景信息等有正確的理解,目前還無(wú)法對(duì)此進(jìn)行清晰的建模。

(3)個(gè)性化識(shí)別

自然語(yǔ)言處理要面對(duì)個(gè)性化問(wèn)題,自然語(yǔ)言常常會(huì)出現(xiàn)模棱兩可的句子,而且同樣一句話,不同的人使用時(shí)可能會(huì)有不同的說(shuō)法和不同的表達(dá)。這種個(gè)性化、多樣化的問(wèn)題非常難以解決。

(4)NLP技術(shù)體系

這里也總結(jié)了整個(gè)自然語(yǔ)言處理的技術(shù)體系,如下所示:

NLP技術(shù)體系

(5)產(chǎn)品體驗(yàn)

自然語(yǔ)言識(shí)別:訊飛輸入法(PC軟件和手機(jī)APP),訊飛語(yǔ)記(手機(jī)APP),百度輸入法PC軟件和手機(jī)APP)

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別(智能音箱):亞馬遜Echo,谷歌Home,蘋(píng)果HomePod

機(jī)器翻譯:google翻譯

多輪對(duì)話機(jī)器人:蘋(píng)果siri,微軟小冰,百度度秘,小i,小黃雞,圖靈機(jī)器人

(6)推薦閱讀材料

  • 初學(xué)者如何查閱自然語(yǔ)言處理(NLP)領(lǐng)域?qū)W術(shù)資料:http://blog.sina.com.cn/s/blog_574a437f01019poo.html
  • 語(yǔ)音識(shí)別技術(shù)原理:https://www.zhihu.com/question/20398418
  • 科大訊飛新一代語(yǔ)音識(shí)別系統(tǒng)大揭秘:http://news.imobile.com.cn/articles/2015/1231/163325.shtml
  • 自然語(yǔ)言處理(NLP)的基本原理及應(yīng)用:http://blog.csdn.net/inter_peng/article/details/53440621
  • siri工作原理詳解、siri技術(shù)解析:http://www.infoq.com/cn/articles/zjl-siri/
  • CSDN自然語(yǔ)言處理博客文章:http://so.csdn.net/so/search/s.do?q=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&t=blog&o=&s=&l=

四、典型AI場(chǎng)景

剛才說(shuō)到了,目前AI的研究主流三大領(lǐng)域:計(jì)算機(jī)視覺(jué)、語(yǔ)音交互和自然語(yǔ)言處理,相當(dāng)于是人工職能的視覺(jué)、聽(tīng)覺(jué)和大腦。最后我再分別講一下目前市場(chǎng)很火熱的幾個(gè)場(chǎng)景,這些細(xì)分場(chǎng)景也是基于上述三大領(lǐng)域的交叉來(lái)實(shí)現(xiàn)的,包括智能機(jī)器人、人臉識(shí)別、移動(dòng)端圖片處理、自動(dòng)編輯等。

1. 智能機(jī)器人

以分揀機(jī)器人為例,分揀機(jī)器人(Sorting robot),是一種具備了傳感器、物鏡和電子光學(xué)系統(tǒng)的機(jī)器人,可以快速進(jìn)行貨物分揀。電商平臺(tái)的蓬勃發(fā)展,自動(dòng)分揀機(jī)器人已得了廣泛的應(yīng)用。亞馬遜,阿里巴巴和京東均已將智能分揀機(jī)器人應(yīng)用在貨物分揀工作中,極大節(jié)省人工成本,號(hào)稱(chēng)一小時(shí)可以完成18000單的分揀工作。延伸閱讀如下:

  • 工業(yè)機(jī)器人分揀技術(shù)的實(shí)現(xiàn):https://wenku.baidu.com/view/a2da4ed17f1922791688e8cf.html
  • 快遞分揀無(wú)人化有哪些關(guān)鍵技術(shù)?:http://baijiahao.baidu.com/s?id=1572495116614945&wfr=spider&for=pc
  • 物流機(jī)器人市場(chǎng)發(fā)展迅速,分揀機(jī)器人的工作原理介紹:http://www.xianjichina.com/news/details_45519.html

2. 自動(dòng)駕駛

自動(dòng)駕駛汽車(chē)(Autonomous vehicles;Self-piloting automobile )又稱(chēng)無(wú)人駕駛汽車(chē)、電腦駕駛汽車(chē)、或輪式移動(dòng)機(jī)器人,是一種通過(guò)電腦系統(tǒng)實(shí)現(xiàn)無(wú)人駕駛的智能汽車(chē)。自動(dòng)駕駛汽車(chē)依靠人工智能、視覺(jué)計(jì)算、雷達(dá)、監(jiān)控裝置和全球定位系統(tǒng)協(xié)同合作,讓電腦可以在沒(méi)有任何人類(lèi)主動(dòng)的操作下,自動(dòng)安全地操作機(jī)動(dòng)車(chē)輛。

2017年7月6日,百度AI開(kāi)發(fā)者大會(huì)現(xiàn)場(chǎng)連線視頻中“李彥宏乘坐無(wú)人駕駛汽車(chē)上北京五環(huán)”的消息刷爆了朋友圈,近期一條自動(dòng)駕駛大巴深圳上路的新聞刷爆朋友圈,由海梁科技攜手深圳巴士集團(tuán)、深圳福田區(qū)政府、安凱客車(chē)、東風(fēng)襄旅、速騰聚創(chuàng)、中興通訊、南方科技大學(xué)、北京理工大學(xué)、北京聯(lián)合大學(xué)聯(lián)合打造的自動(dòng)駕駛客運(yùn)巴士——阿爾法巴(Alphabus)正式在深圳福田保稅區(qū)的開(kāi)放道路進(jìn)行線路的信息采集和試運(yùn)行。讓這個(gè)焦慮的世界又多了一批焦慮的人–公交車(chē)司機(jī)。

沃爾沃根據(jù)自動(dòng)化水平的高低區(qū)分了四個(gè)無(wú)人駕駛的階段:駕駛輔助、部分自動(dòng)化、高度自動(dòng)化、完全自動(dòng)化:

  1. 駕駛輔助系統(tǒng)(DAS):目的是為駕駛者提供協(xié)助,包括提供重要或有益的駕駛相關(guān)信息,以及在形勢(shì)開(kāi)始變得危急的時(shí)候發(fā)出明確而簡(jiǎn)潔的警告。如“車(chē)道偏離警告”(LDW)系統(tǒng)等。
  2. 部分自動(dòng)化系統(tǒng):在駕駛者收到警告卻未能及時(shí)采取相應(yīng)行動(dòng)時(shí)能夠自動(dòng)進(jìn)行干預(yù)的系統(tǒng),如“自動(dòng)緊急制動(dòng)”(AEB)系統(tǒng)和“應(yīng)急車(chē)道輔助”(ELA)系統(tǒng)等。
  3. 高度自動(dòng)化系統(tǒng):能夠在或長(zhǎng)或短的時(shí)間段內(nèi)代替駕駛者承擔(dān)操控車(chē)輛的職責(zé),但是仍需駕駛者對(duì)駕駛活動(dòng)進(jìn)行監(jiān)控的系統(tǒng)。
  4. 完全自動(dòng)化系統(tǒng):可無(wú)人駕駛車(chē)輛、允許車(chē)內(nèi)所有乘員從事其他活動(dòng)且無(wú)需進(jìn)行監(jiān)控的系統(tǒng)。這種自動(dòng)化水平允許乘客從事計(jì)算機(jī)工作、休息和睡眠以及其他娛樂(lè)等活動(dòng)。

這個(gè)領(lǐng)域的相關(guān)公司國(guó)外是家喻戶曉的特斯拉,國(guó)內(nèi)做無(wú)人駕駛最不錯(cuò)的是百度。百度無(wú)人駕駛車(chē)項(xiàng)目于2013年起步,由百度研究院主導(dǎo)研發(fā),其技術(shù)核心是“百度汽車(chē)大腦”,包括高精度地圖、定位、感知、智能決策與控制四大模塊。

其中,百度自主采集和制作的高精度地圖記錄完整的三維道路信息,能在厘米級(jí)精度實(shí)現(xiàn)車(chē)輛定位。同時(shí),百度無(wú)人駕駛車(chē)依托國(guó)際領(lǐng)先的交通場(chǎng)景物體識(shí)別技術(shù)和環(huán)境感知技術(shù),實(shí)現(xiàn)高精度車(chē)輛探測(cè)識(shí)別、跟蹤、距離和速度估計(jì)、路面分割、車(chē)道線檢測(cè),為自動(dòng)駕駛的智能決策提供依據(jù)。

特斯拉(Tesla),是一家美國(guó)電動(dòng)車(chē)及能源公司,產(chǎn)銷(xiāo)電動(dòng)車(chē)、太陽(yáng)能板、及儲(chǔ)能設(shè)備。Tesla 的計(jì)劃是通過(guò)不斷迭代輔助駕駛技術(shù),使之最后升級(jí)成為無(wú)人駕駛。停留在輔助駕駛階段時(shí),需要駕駛員。駕駛員有完全控制權(quán),可以反制或取消輔助駕駛的行為,完全對(duì)安全負(fù)責(zé)。

Google 無(wú)人駕駛是一步到位的,基本原則就是不需要人類(lèi)干預(yù),沒(méi)有駕照的人也可以單獨(dú)上車(chē),上車(chē)就睡,乘客不承擔(dān)責(zé)任。樂(lè)視網(wǎng)汽車(chē)頻道于2010年8月20日正式上線,依托樂(lè)視網(wǎng)視頻方面的優(yōu)勢(shì),將豐富、精彩、實(shí)用的汽車(chē)內(nèi)容以視頻的形式呈現(xiàn)給廣大的網(wǎng)友,內(nèi)容涵蓋新車(chē)報(bào)道、行業(yè)新聞、試乘試駕、維修保養(yǎng)、原創(chuàng)汽車(chē)視頻、車(chē)模風(fēng)采、消費(fèi)維權(quán)、汽車(chē)賽事等欄目·精彩的視頻讓網(wǎng)友輕松享受汽車(chē)行業(yè)的視聽(tīng)盛宴。不幸的是無(wú)人駕駛和智慧出行是趨勢(shì),但是2017年并不是其爆發(fā)點(diǎn),龐大的樂(lè)視帝國(guó)因?yàn)楣┭獰o(wú)人汽車(chē)崩盤(pán)了。

延伸閱讀包括:

  • 自動(dòng)駕駛汽車(chē)涉及哪些技術(shù)?:https://www.zhihu.com/question/24506695
  • 什么是汽車(chē)自動(dòng)駕駛,如何通俗易懂地理解其功能及原理?:https://www.zhihu.com/question/54647152
  • 干貨!激光雷達(dá)技術(shù)和自動(dòng)駕駛技術(shù)原理分析:http://www.21ic.com/app/auto/201705/721051.htm
  • 自動(dòng)駕駛技術(shù)原理介紹和未來(lái)的趨勢(shì)如何:http://www.elecfans.com/xinkeji/595666_2.html
  • Google 無(wú)人駕駛介紹Ted視頻,有中文字幕:https://www.ted.com/talks/chris_urmson_how_a_driverless_car_sees_the_road
  • 黃仁勛訪談 Elon Musk 提到Tesla 輔助駕駛原理https://youtu.be/uxFeUOstyKI
  • 人工智能在自動(dòng)駕駛技術(shù)中的的應(yīng)用:https://wenku.baidu.com/view/277ffb5cbb1aa8114431b90d6c85ec3a87c28baa.html

3. 人臉識(shí)別技術(shù)(非手機(jī)端)

人臉識(shí)別,是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,進(jìn)而對(duì)檢測(cè)到的人臉進(jìn)行臉部的一系列相關(guān)技術(shù),通常也叫做人像識(shí)別、面部識(shí)別。2017年被全面應(yīng)用在手機(jī)解鎖中。人臉識(shí)別系統(tǒng)主要包括四個(gè)組成部分,分別為:人臉圖像采集及檢測(cè)、人臉圖像預(yù)處理、人臉圖像特征提取以及匹配與識(shí)別。

人臉識(shí)別技術(shù)產(chǎn)品已廣泛應(yīng)用于金融、司法、軍隊(duì)、公安、邊檢、政府、航天、電力、工廠、教育、醫(yī)療及眾多企事業(yè)單位等領(lǐng)域。隨著技術(shù)的進(jìn)一步成熟和社會(huì)認(rèn)同度的提高,人臉識(shí)別技術(shù)將應(yīng)用在更多的領(lǐng)域。而這個(gè)行業(yè)涌現(xiàn)出了像湖南視覺(jué)偉業(yè)、北京曠視科技、北京商湯科技等一批優(yōu)秀的企業(yè)。

延伸閱讀包括:

人臉識(shí)別系統(tǒng)原理:

  • http://blog.csdn.net/zergskj/article/details/43374003
  • 人臉識(shí)別系統(tǒng)的原理與發(fā)展:https://wenku.baidu.com/view/0c56a7bf3186bceb19e8bbf9.html
  • 人臉識(shí)別主要算法原理:http://blog.csdn.net/liulina603/article/details/7925170
  • 簡(jiǎn)話人工智能 | 2分鐘看懂人臉識(shí)別的原理:http://baijiahao.baidu.com/s?id=1568919427558010&wfr=spider&for=pc
  • 人臉識(shí)別技術(shù)公司十大排名:http://www.elecfans.com/consume/571535.html?1509154910

4. 視覺(jué)設(shè)計(jì)(手機(jī)端)

自拍類(lèi)APP越來(lái)越多,結(jié)合人臉識(shí)別技術(shù),可以在人的面部或頭部添加耳朵,鼻子,王冠等道具,識(shí)別鎖定人的面部或肢體,保證道具可以自動(dòng)隨著人的移動(dòng)而移動(dòng)。

Instagram可以實(shí)現(xiàn)自動(dòng)識(shí)別一張圖中設(shè)計(jì)元素,賦予另外一張圖作為濾鏡,可以設(shè)計(jì)出效果超贊的設(shè)計(jì)效果,把一張普普通的風(fēng)景照變成梵高風(fēng)格的油畫(huà)。

國(guó)內(nèi)包括視覺(jué)設(shè)計(jì)類(lèi)AI的APP遍布我們的手機(jī)之中,美拍、SNOW相機(jī)、Faceu激萌,B612、羞兔、IN、美咖相機(jī)、LINE camera等手機(jī)APP支持人臉自動(dòng)識(shí)別,貓耳朵、兔耳朵、狐貍耳朵、豬耳朵隨你挑。

延伸閱讀包括:

  • A Neural Algorithm of Artistic Style:https://arxiv.org/abs/1508.06576
  • 自己搭建一個(gè)ostagram:https://zhuanlan.zhihu.com/p/22704865

5. 文字自動(dòng)編輯

機(jī)器人寫(xiě)稿已經(jīng)不是什么新鮮事了,早兩年國(guó)外還出過(guò)專(zhuān)門(mén)的資訊APP,內(nèi)容全部由機(jī)器抓取并生成短消息,主要集中在體育、財(cái)經(jīng)等領(lǐng)域。很多海外的傳統(tǒng)媒體都已經(jīng)運(yùn)用上了機(jī)器人寫(xiě)作,因?yàn)槿斯ぶ悄芸梢员O(jiān)測(cè)網(wǎng)絡(luò)熱詞,所以比起對(duì)熱點(diǎn)時(shí)間的敏感度,機(jī)器人的反應(yīng)更靈敏,響應(yīng)速度更快。

機(jī)器人知道什么會(huì)成為熱點(diǎn),也能第一時(shí)間把熱點(diǎn)傳遞給受眾。在媒體行業(yè),AI寫(xiě)稿是未來(lái)的一個(gè)趨勢(shì),特別是類(lèi)似財(cái)報(bào)、體育快訊、股市消息等結(jié)構(gòu)化、標(biāo)準(zhǔn)化的以數(shù)據(jù)為主信息,人工處理反而不如AI精準(zhǔn)、高效。

這里推薦試用的產(chǎn)品包括騰訊的Dreamwriter、百度的寫(xiě)作大腦、新華社的“快筆小新”、今日頭條的“xiaomingbot”。

以百度產(chǎn)品為例的文字自動(dòng)編輯流程

延伸閱讀包括:

  • 紐約時(shí)報(bào)的“新媒體運(yùn)營(yíng)總監(jiān)”,是一個(gè)叫Blossom的機(jī)器人:http://www.leiphone.com/news/201508/Ze9HOBijDnwIQIPE.html
  • EditorAI:用人工智能技術(shù)輔助記者編輯寫(xiě)稿:http://news.91.com/mip/s5947c56e593b.html
  • 人工智能幫你寫(xiě)論文,總有一款適合你!http://www.sohu.com/a/119470301_107743

以上,就是我目前總結(jié)的AI在各個(gè)領(lǐng)域的大體應(yīng)用現(xiàn)狀,基本是比較全了,之后圍繞著各個(gè)技術(shù)點(diǎn)和產(chǎn)品設(shè)計(jì),還將繼續(xù)深入的抽絲剝繭分享下去,敬請(qǐng)期待。

 

作者:方舟談AI,AI產(chǎn)品經(jīng)理,公眾號(hào)&知乎:方舟談AI

本文由 @方舟談AI 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大佬可否加微信請(qǐng)教下

    來(lái)自浙江 回復(fù)
  2. 很全乎,謝謝親。期待后續(xù)。

    來(lái)自北京 回復(fù)
  3. 總結(jié)的不錯(cuò),辛苦了,已打賞

    回復(fù)
    1. 感謝 這篇比較泛 后面會(huì)越來(lái)越細(xì)

      回復(fù)