AR設(shè)計(jì)師需要了解的6個(gè)技術(shù)點(diǎn)
編輯導(dǎo)讀:AR界面作為一個(gè)觸點(diǎn),實(shí)現(xiàn)了人和機(jī)器雙方的聯(lián)結(jié),進(jìn)行了信息的交流和轉(zhuǎn)化。作為一名AR設(shè)計(jì)師,要對硬件和軟件的技術(shù)有所了解,才能實(shí)現(xiàn)AR智能化發(fā)展。本文作者列舉了AR設(shè)計(jì)師需要了解的6個(gè)技術(shù)點(diǎn),與你分享。
和屏幕UI一樣,AR界面本身并不等于我們所要探索的自然交互方式,它只是一個(gè)觸點(diǎn)。通過這個(gè)觸點(diǎn),機(jī)器與人實(shí)現(xiàn)了雙方的聯(lián)結(jié),進(jìn)行信息的交流和轉(zhuǎn)化。
為了實(shí)現(xiàn)人機(jī)間更自然的交互方式,在我們所看到的AR界面背后,需要許許多多包括硬件和軟件層面的關(guān)鍵技術(shù)來支持它實(shí)現(xiàn)智能化發(fā)展。作為AR領(lǐng)域的設(shè)計(jì)師,自然需要對這些技術(shù)術(shù)語及基本原理有所了解,才能更好的發(fā)揮自己的專長,賦能技術(shù)更早的面向應(yīng)用層面和生產(chǎn)層面。
這篇文章,我主要以設(shè)計(jì)師的角度來理解和分享這些技術(shù)術(shù)語,確保我們在設(shè)計(jì)的時(shí)候?qū)R界面下的基本技術(shù)和通識概念有所了解。
一、FOV
Field of view的縮寫,是AR設(shè)計(jì)中所設(shè)計(jì)對象的顯示區(qū)域,在之前的文章里我也有介紹過。它可以理解為屏幕UI設(shè)計(jì)里的手機(jī)屏幕、電腦屏幕,如果使用視頻流式的顯示方案兩者區(qū)別不大,如果使用光學(xué)顯示方案區(qū)別就會(huì)比較大。大家一般在網(wǎng)上所看到的AR應(yīng)用視頻,其實(shí)都是視頻流顯示方案的效果,和真實(shí)帶上光學(xué)式AR眼鏡的感覺是完全不同的。
光學(xué)方案下AR設(shè)計(jì)中的屏幕沒有固定的物理尺寸,大小主要由設(shè)備里的光學(xué)儀器能夠顯示出來的視角場范圍決定,距離越遠(yuǎn),虛擬物體能顯示的范圍越大。這個(gè)距離是可以由設(shè)計(jì)定義的,但由于設(shè)備和人眼等限制問題,在設(shè)計(jì)中并不是越遠(yuǎn)越好。
現(xiàn)在的光學(xué)技術(shù)所能提供的虛擬顯示區(qū)域并不大,以比較先進(jìn)的50°FOV視場角為例,1080P屏幕在1.5m距離的顯示大小,換算成真實(shí)世界尺寸大概為1.16×0.51m。
二、手勢
對于頭戴式設(shè)備來說,手勢操作是一種理想的交互方式。它作為物理世界里本來存在的自然交互方式,對物體的抓取,移動(dòng)等,有不可置疑的體驗(yàn)優(yōu)勢。但要在AR的世界里實(shí)現(xiàn)這樣的交互,首先必須要滿足用戶使用手勢的手是在機(jī)器的識別FOV范圍內(nèi)的,否則它無法被機(jī)器所識別,也無法做出反饋。
需要注意的是,這里的FOV與上面的顯示FOV不是同一個(gè)FOV,是指另外一個(gè)硬件(TOF相機(jī))的FOV。
總的來說,我們在加入手勢交互的時(shí)候,要了解對應(yīng)設(shè)備與手勢有關(guān)的效度,精度和準(zhǔn)度,以輔助我們形成更完整的設(shè)計(jì)方案。效度就是指手勢在什么條件下是有效的,起作用的。一般來說,現(xiàn)在的TOF相機(jī)的FOV都不太大,很容易跟丟或認(rèn)錯(cuò)手勢的運(yùn)動(dòng)。精度是指設(shè)備可以識別到什么程度的手勢,比如是否能區(qū)分一只手指和兩只手指的區(qū)別。準(zhǔn)度是指設(shè)備對此手勢的判讀是否準(zhǔn)確無誤,錯(cuò)誤或與其他手勢混淆的概率是多少。
三、SLAM
Simultaneous localization and mapping的縮寫,是一種同步定位與地圖構(gòu)建的技術(shù)。即是讓設(shè)備知道兩個(gè)問題:我所處的環(huán)境是什么樣子的?以及我在哪的問題。最早用于機(jī)器人領(lǐng)域,現(xiàn)在在多個(gè)人工智能領(lǐng)域都有所運(yùn)用。
圖片來源:Hololens 網(wǎng)站
由于這門技術(shù)還屬于正在發(fā)展中的一項(xiàng)技術(shù),具體的實(shí)現(xiàn)方式也會(huì)各有不同,一般是通過設(shè)備的相機(jī)、傳感器等輸入設(shè)備,經(jīng)過計(jì)算得出自身定位坐標(biāo)和地圖構(gòu)建。由于依賴于相機(jī)等輸入設(shè)備來進(jìn)行實(shí)時(shí)計(jì)算,對AR設(shè)備來說,用戶使用時(shí)的位置和姿態(tài)會(huì)影響其輸入,網(wǎng)絡(luò)延遲造成的丟幀現(xiàn)象也會(huì)影響其輸入,實(shí)際的環(huán)境和光線強(qiáng)弱造成的曝光現(xiàn)象也會(huì)影響其輸入,在設(shè)計(jì)的時(shí)候考慮到這些情況,就可以在用戶使用的時(shí)候做出引導(dǎo)或反饋性的設(shè)計(jì),來更好的提升技術(shù)限制所帶來的用戶體驗(yàn)問題。
四、3DOF VS 6DOF
這兩個(gè)術(shù)語其實(shí)可以歸類于SLAM技術(shù)下,和經(jīng)過SLAM技術(shù)所得出的坐標(biāo)位置有關(guān)。DOF就是自由度的意思,也就是3個(gè)軸向和6個(gè)軸向的問題,關(guān)系到設(shè)備在人機(jī)交互中可以支持到的程度。
3種平移自由度(3DOF)+3種旋轉(zhuǎn)自由度 = 6種自由度(6DOF)。
圖片來源:https://www.sohu.com/a/418784025_230122
五、物體識別
相較于SLAM是讓設(shè)備(機(jī)器)回答“我在哪,我來去何方?”的問題,我理解物體識別是讓機(jī)器回答 “他是什么?” 的問題。在維基百科里的解釋是“計(jì)算機(jī)視覺及影像處理中的術(shù)語,指的是讓計(jì)算機(jī)去分析一張圖片或者一段視頻流中的物體,并標(biāo)記出來。這需要給神經(jīng)網(wǎng)絡(luò)大量的物體數(shù)據(jù)去訓(xùn)練它,這樣才能進(jìn)行識別。”
怎么理解這段話呢?簡單的說,如果把機(jī)器比作小孩子,當(dāng)我們需要小孩子去認(rèn)識三維世界一個(gè)叫蘋果的東西,首先需要給與他真實(shí)的蘋果或大量的蘋果照片去告訴他這就是蘋果,也就是上面所說的大量物體數(shù)據(jù),這樣在新遇見一個(gè)蘋果的時(shí)候,他才能準(zhǔn)確的認(rèn)知到這是蘋果。機(jī)器也是一樣。
圖片來源:公司內(nèi)部培訓(xùn)資料
是否能正確的識別出這個(gè)物體,除了之前輸入的數(shù)據(jù)以外,還受限于物體本身是否易于識別,這個(gè)物體的背后是否有過多干擾,當(dāng)時(shí)環(huán)境的光線是否過于明亮或昏暗等。
由于技術(shù)難易程度的不同,使用視頻流顯示方案比使用光學(xué)顯示能獲得更精準(zhǔn)和快速的識別效果。如果是需要穩(wěn)定度更高的工業(yè)應(yīng)用,可以更多的考慮視頻流顯示方案。
六、特征點(diǎn)
這個(gè)術(shù)語可以看做SLAM和物體識別所衍生出來的技術(shù)術(shù)語,我們知道,SLAM和物體識別都需要依賴于攝像機(jī)的輸入,它相當(dāng)于機(jī)器的眼睛。而在機(jī)器看來,一副生動(dòng)的圖像其實(shí)是由無數(shù)的像素點(diǎn)構(gòu)成的,每一個(gè)像素都可以翻譯成0~256的RGB數(shù)值,當(dāng)某一個(gè)像素點(diǎn)和周圍的像素點(diǎn)數(shù)值特別不一樣的時(shí)候,這個(gè)點(diǎn)就成為了值得機(jī)器去關(guān)注的一個(gè)特殊的點(diǎn),它可能代表某個(gè)物體的邊緣位置,或者某個(gè)空間的轉(zhuǎn)角界限。
這個(gè)特殊的點(diǎn),就是特征點(diǎn)。
當(dāng)你要定義一個(gè)虛擬界面屬于A類和B類的時(shí)候(《AUI中的四種分類模式》),可以提前考慮這個(gè)場景或者物體的特征點(diǎn)是否足夠穩(wěn)定和相對不變,在機(jī)器的性能、算法、環(huán)境,甚至用戶本身的使用條件下,設(shè)計(jì)效果圖里的理想狀態(tài)所出現(xiàn)的概率有多大,是否能滿足產(chǎn)品所定義的場景應(yīng)用等。
在以“人”為核心設(shè)計(jì)界面的同時(shí),對基本的技術(shù)術(shù)語有所了解,不僅更方便與研發(fā)溝通,也更了解當(dāng)前技術(shù)下所能達(dá)到的設(shè)計(jì)邊界,從而更好的探索AR領(lǐng)域下的人機(jī)自然交互。AR界面本身只是一個(gè)觸點(diǎn),它并不等于智能化,要實(shí)現(xiàn)更好的人機(jī)交互,就必須依賴于背后更多技術(shù)的綜合應(yīng)用。
作者:林影落,10年+體驗(yàn)設(shè)計(jì)師,專注AR及創(chuàng)新領(lǐng)域設(shè)計(jì);微信公眾號:林間有影落
本文由 @林影落 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自?Unsplash,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!