解讀目的地預(yù)測(cè)背后的AI算法
隨著大數(shù)據(jù)、人工智能的技術(shù)進(jìn)步,以及汽車朝網(wǎng)聯(lián)化、智能化的快速發(fā)展,擁有強(qiáng)勁的AI算法和技術(shù)支撐,我們已經(jīng)可以實(shí)現(xiàn)較高準(zhǔn)確率的目的地預(yù)測(cè)。文章就來解讀一下關(guān)于目的地預(yù)測(cè)背后的AI算法。
人工智能,將要如何改變汽車?或者說,智能汽車究竟是什么樣的?
我想,每個(gè)人都能說出很多答案。對(duì)斑小寶來說,心目中的智能汽車,TA其實(shí)就是“輪式移動(dòng)機(jī)器人”。既然是機(jī)器人,符合“機(jī)器人大三定律”,就要安全、聰明、善解人意。
早在上世紀(jì)80年代,美國科幻電劇《霹靂游俠》中就有一個(gè)會(huì)說話的人工智能汽車KITT,這是對(duì)智能汽車比較早的回答了??纯碖ITT都有哪些智能化吧,擁有自我意識(shí)、可以說多國方言、懂得幽默,儼然就是一副輪式的、智商能力遠(yuǎn)超人類的機(jī)器人。
但是在今天,這些強(qiáng)人工智能的階段仍然非常遙遠(yuǎn)。然而在弱人工智能的范疇,通過AI算法和應(yīng)用來解決特定領(lǐng)域的問題,在很多領(lǐng)已經(jīng)落地成為現(xiàn)實(shí),比如說:我們今天要談到的這個(gè)應(yīng)用,汽車自動(dòng)預(yù)測(cè)目的地。
去年,有一位特斯拉的用戶在Twitter上建議說,馬斯克可以考慮設(shè)計(jì)一款智能汽車,當(dāng)用戶上車時(shí)只需要簡(jiǎn)單提問,它就能了解你要去的目的地。但是馬斯克回應(yīng)說,根本不用你說話,未來的特斯拉汽車將會(huì)自動(dòng)預(yù)測(cè)你的目的地。
對(duì)現(xiàn)實(shí)中的大多數(shù)人來說,似乎不太相信汽車真的能“了解”你準(zhǔn)備去的目的地。隨著大數(shù)據(jù)、人工智能的技術(shù)進(jìn)步,以及汽車朝網(wǎng)聯(lián)化、智能化的快速發(fā)展,擁有強(qiáng)勁的AI算法和技術(shù)支撐,我們已經(jīng)可以實(shí)現(xiàn)較高準(zhǔn)確率的目的地預(yù)測(cè)。
行程預(yù)測(cè)算法模型,是Zebrai汽車數(shù)智大腦AI應(yīng)用的重要功能之一??梢詫?shí)現(xiàn)在用戶開車出發(fā)前,準(zhǔn)確預(yù)測(cè)并推薦最可能的目的地,以提升用戶的智能化出行體驗(yàn)。
想象一下,當(dāng)我們坐上駕駛室系好安全帶,汽車就能猜到我們將要前往的目的地并作出準(zhǔn)確的推薦,這種驚喜的感覺比擁有一輛“會(huì)說話的汽車”似乎也差不到哪兒去。同時(shí),可以驚艷用戶,彰顯汽車的人工智能科技。
典型案例
那么,具體是如何實(shí)現(xiàn)預(yù)測(cè)的呢?
剖析這個(gè)應(yīng)用場(chǎng)景,實(shí)際上我們要做的就是通過用戶的出行歷史,預(yù)測(cè)用戶當(dāng)前時(shí)間、當(dāng)前地點(diǎn)下的出行目的地。
目前,斑馬數(shù)智已經(jīng)對(duì)接了超過700萬臺(tái)車、20億段行程、300億公里、640億分鐘的超大數(shù)據(jù)規(guī)模,基于積累的這些海量行車數(shù)據(jù),我們發(fā)現(xiàn):人們的出行往往存在一定的規(guī)律,用戶往往傾向在類似的時(shí)間到達(dá)相同的目的地。而對(duì)線下位置進(jìn)行分析,也有助于精準(zhǔn)推薦用戶的實(shí)時(shí)目的地。
舉幾個(gè)比較典型的例子,來看看目的地預(yù)測(cè)的一些非常有意思的地方:
(1)用戶A:根據(jù)出發(fā)時(shí)間預(yù)測(cè)
該用戶去目的地a的平均出發(fā)時(shí)刻是8:40,去目的地b的平均出發(fā)時(shí)刻是18:35。這時(shí)我們只用出發(fā)時(shí)間這一個(gè)特征就能夠很好的區(qū)分他去往哪個(gè)目的地。
(2)用戶B:根據(jù)出發(fā)地點(diǎn)預(yù)測(cè)
該用戶去目的地a和目的地b的平均時(shí)刻非常接近,難以通過時(shí)間預(yù)測(cè)目的地。通過發(fā)現(xiàn)該用戶去目的地a和b時(shí),對(duì)應(yīng)出發(fā)地的經(jīng)緯度集中在不同區(qū)域,就可以根據(jù)出發(fā)地點(diǎn)預(yù)測(cè)目的地。
(3)用戶C:根據(jù)出發(fā)時(shí)間、地點(diǎn)相結(jié)合預(yù)測(cè)
當(dāng)該用戶出發(fā)時(shí)間和地點(diǎn)的單一特征都不容易區(qū)分時(shí),通過出發(fā)地和出發(fā)時(shí)刻兩個(gè)變量聯(lián)合出來,就可以知道該用戶的目的地。即我們通過出行歷史發(fā)現(xiàn),如果這個(gè)用戶是18點(diǎn)左右,并且他從a地出發(fā)的話,他很大概率是去b地。
機(jī)器學(xué)習(xí)算法
實(shí)際的模型卻更加復(fù)雜。我們發(fā)現(xiàn):時(shí)間與目的地之間具有一維的正態(tài)分布關(guān)系,出發(fā)地點(diǎn)經(jīng)緯度與目的地之間有二維正態(tài)分布關(guān)系,所以我們?cè)诮5臅r(shí)候需要將一維和二維聯(lián)合起來,建立一個(gè)三維的模型。
為了建立這個(gè)三維模型,我們把用戶去D(D 表示特定目的地)和不去D劃分成兩類不同的正態(tài)分布來進(jìn)行描述。我們估算的就是在X特征下(時(shí)間、經(jīng)緯度特征)去D這個(gè)目的地的概率,借助貝葉斯公式變換、以及線性代數(shù)的計(jì)算,把整個(gè)過程進(jìn)行推導(dǎo),最終推導(dǎo)出一個(gè)類似邏輯回歸的方程。
如果要實(shí)現(xiàn)較高的準(zhǔn)確度,我們還要注意幾點(diǎn):
- 一個(gè)是正態(tài)分布和貝葉斯框架推導(dǎo)出來的邏輯回歸有二次項(xiàng)和交叉項(xiàng);
- 另一個(gè),時(shí)間、經(jīng)緯度不一定符合正態(tài)分布,因?yàn)檎龖B(tài)分布是從負(fù)無窮大到正無窮大連續(xù)的,但時(shí)間從0-24小時(shí)會(huì)有周期性。這個(gè)時(shí)候如果強(qiáng)制性使用正態(tài)分布,就會(huì)導(dǎo)致模型的準(zhǔn)確率非常低。所以需要對(duì)特征進(jìn)行一些工程化處理,就是特征工程。
采用機(jī)器學(xué)習(xí)特征工程處理方法,我們進(jìn)行了一些特征篩選,篩除時(shí)間、出發(fā)地這些相關(guān)性比較高的特征。然后從用戶的出行歷史中,把POI的信息結(jié)合進(jìn)來,挖掘用戶的行為規(guī)律,以增加預(yù)測(cè)的準(zhǔn)確性。
我們不僅是用純數(shù)學(xué)的經(jīng)緯度去做預(yù)測(cè),還需要對(duì)用戶出發(fā)地到目的地之間POI類型進(jìn)行掌握。
綜合考慮以上因素,就可以實(shí)現(xiàn)非常高的預(yù)測(cè)準(zhǔn)確率。
本文由 @?jmto 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
感覺斑馬發(fā)錯(cuò)了地方,和運(yùn)營的人說些沒人看懂,汽車之家論壇討論的人也比這多呀。