6個方面對比分析:手勢、觸控和語音三大交互方式
手勢交互、觸控交互和語音交互是當下主要的3種交互方式,本文筆者結(jié)合可用性評估指標和自己調(diào)研使用中的發(fā)現(xiàn),從6個角度對這3種交互方式進行了分析和對比,供大家參考。
吃小龍蝦的時候,最怕需要用手機,脫完手套還得擦手。遇上重要來電,也管不了那么多了,油乎乎的手直接往屏幕上按,按了半天,才發(fā)現(xiàn)手機根本識別不到被層層辣油浸染過的手指頭。(ノ=Д=)ノ┻━┻
隨著技術(shù)發(fā)展,這種煩惱可以消失了。近日華為發(fā)布了Mate30,其中出現(xiàn)了一種相對新穎的交互形式——隔空手勢操作。
當你在吃螃蟹滿手腥味時,當你在剝小龍蝦滿手都是油時,都依然可以無障礙地使用手機。
圖片來源:華為官方宣傳片截圖
其實,這種交互方式并非首次出現(xiàn)在手機終端里。在今年年初的MWC上,LG已推出了同樣性質(zhì)的Air Motion。
這些產(chǎn)品能夠落地,說明手勢識別技術(shù)在不斷發(fā)展,當前已達到投入實際應用的標準。
圖片來源:LG官網(wǎng)
逐漸進入大眾視野的手勢交互,經(jīng)典高效的觸控交互,還有在IOT領(lǐng)域表現(xiàn)亮眼的語音交互,構(gòu)成了當下主要幾種交互方式。
我將結(jié)合可用性的評估指標和自己在調(diào)研、使用中的發(fā)現(xiàn),從以下幾個角度對這三種交互方式進行對比:
- 適用場景
- 交互效率
- 準確性與容錯性
- 學習成本
- 情感互動
- 隱私性
需要說明一點,本文中的手勢交互是指通過計算機視覺識別出的手勢動作,無需和實體進行接觸,類似于Mate 30的隔空手勢操作或者HoloLens的手勢操作。而我們?nèi)粘J褂玫膶os等進行控制的手勢動作,在此文中和按鈕按鍵一起,統(tǒng)一歸入觸控操作內(nèi)。
一、適用場景
我們應針對不同場景的特征去選擇相應的交互方式。對適用場景理解可以從以下三方面入手:
1. 物理層面
語音交互需要用戶能進行聽和說;觸控交互需要用戶能和設(shè)備進行接觸;手勢交互需要用戶的手能自由移動。但在一些場景下,用戶并沒有條件進行上述交互行為。
以醫(yī)生為例,可能在他已經(jīng)對雙手進行嚴格消毒后,仍需要查看病人的相關(guān)資料。但是他無法確保,所有的屏幕、X光片、檔案等都是干凈的。這時如果能通過非接觸的手勢或語音進行操作,就不會有被污染的風險。
還有像開車的過程中,有些路段是非常嘈雜的,語音交互可能無法很好地識別對話內(nèi)容;低頭使用觸控屏又有些危險。這時采用手勢交互,就能在相對安全的基礎(chǔ)上完成用戶的指令。
選擇交互形式的關(guān)鍵,是要回歸到使用場景中,采用各場景內(nèi)的最優(yōu)解。
2. 心理層面
進行語音交互時,用戶需要把指令說出來。當只有自己一人時,說些什么可能都沒有關(guān)系。但當人多起來時,尤其是不熟悉的人多起來時,當眾說一些東西會讓用戶覺得自己很傻。
此外,公共空間內(nèi),涉及到相對私密的內(nèi)容時,用戶也不想這樣公之于眾。就像蜘蛛俠在得到語音控制的智能眼鏡Edith后,也只能躲在車的角落里小心翼翼地說話。
此外,當人正在與他人進行交流時,使用語音進行交互是一件打斷性非常強的事情。例如幾個人聊天聊得正嗨,想要播放音樂或調(diào)解燈光來營造氣氛,突然來一句“小張同學,播放音樂”會顯得很突兀。這種時候,如果打個響指就能達到目的,會方便自然許多。
大家可能都有在電視內(nèi)進行搜索的經(jīng)歷,電視上的鍵盤操作起來非常麻煩,用著用著就有想摔遙控器的沖動?,F(xiàn)在很多電視支持語音檢索,在精細搜索方面,比之前方便了許多。
以上的這些尷尬、緊張、煩躁等情感,都與選擇了錯誤的交互形式相關(guān)。
3. 文化層面
不論你是上??谝暨€是廣東口音,啟動iPhone時按的都是開機鍵。但在進行語音交互時,可能就會遇到一些麻煩,因為多數(shù)都是以普通話為基準。
在這種地方口音非?;祀s的情況下(例如面向老年群體或是口音重的地區(qū)),語音交互的實用性就會大幅降低。
此外,在不同國家,手勢的含義也可能截然不同。例如最近被惡搞出種族歧視含義的ok手勢,在大部分地區(qū)還是代表著相對正面的含義。因此在進行設(shè)計時,也需要考慮到不同的文化背景。
二、交互效率
交互效率可以從空間和時間兩個維度進行考慮。
1. 空間
觸控交互是需要某種實體承載的,用戶必須要接觸到設(shè)備才能發(fā)出指令。當設(shè)備離用戶有一定距離時,則必須要先靠近才能進行操作。
例如當遙控器不在手邊時,就必須過去拿到它才可以進行操作。而且懶惰是人的天性,躺在沙發(fā)上時就會覺得走幾步去拿遙控器也是件麻煩事。
手勢交互和語音交互則在空間上更為自由,只要在有效交互區(qū)域內(nèi)就可以(即攝像頭能“看清”,麥克風能“聽清”),不需要用戶親身接觸到設(shè)備。
當用戶離實體設(shè)備有一定距離時,這兩種方式是更為高效的。
2. 時間
當觸控產(chǎn)品就在手邊時,觸控操作需要的時間可能是三種交互方式中最短的。而且像蘋果還開發(fā)了“捷徑”功能,人為地進一步精簡操作路徑,縮短交互時間。
目前的語音交互都需要一些喚醒詞。相較于其他交互形式,喚醒設(shè)備+清楚表達指令的過程通常會花費更多的時間。
有團隊將喚醒詞更短作為產(chǎn)品賣點,個人感覺這也從側(cè)面反映了喚醒這段較長的交互流程可能是智能音箱的痛點之一。之前有科技新聞報道,已有團隊能做到無需喚醒詞,只通過分析說話人的語音語調(diào)語氣,來判斷是否喚起設(shè)備。
但是就目前的技術(shù)而言,尤其在稍復雜的場景下,無喚醒詞的做法可能風險比較大。
手勢交互中,指令性的內(nèi)容可以分為組合型動作和獨立動作(我自己定義的(? ??灬??)?)。我們可以將操控對象和指令合在一個手勢動作中,也可以拆分用兩個動作表示。
例如想要音量升高時,可以定義動作為“音量”+“升高”或者“音量升高”。組合型動作花費的時間更長,獨立動作花費的時間更短。
三、準確性
1. 指令識別的準確性
在識別指令方面,觸控交互的準確率是最高的。不論我們是要開關(guān)燈,還是要點擊屏幕上的某個按鈕,只要用戶在對的地方用對的方式進行操作,指令幾乎都能及時被設(shè)備接收并執(zhí)行。
手勢交互的觸點是全部預設(shè)好的,這一點與觸控相似,只要用戶執(zhí)行了對的動作,就可以得到相應的結(jié)果。
而在語音交互時,用戶表達的內(nèi)容是沒有限制的,這也意味著是不可控的。
由于大家在日常生活中說的話并不是特別嚴謹,從語義分析的角度,一句話可能可以被解讀為多重意思。因此,在自然語言處理中常常會面臨二義性的問題。
處理這種問題時,必須要進一步明確用戶意圖,否則設(shè)備可能會做出與用戶意愿大相徑庭的行為。
2. 喚醒設(shè)備的準確性
除了以上對于指令識別、執(zhí)行的準確性外,語音和手勢交互還涉及到設(shè)備喚醒的準確性。
以我家的小愛同學為例,偶爾也會出現(xiàn)明明沒有有說到任何和喚醒詞相關(guān)的內(nèi)容,就突然聽到一聲“我在”。雖說我們?nèi)祟愒谌粘I钪?,也常有聽錯看錯的情況出現(xiàn),但如果設(shè)備經(jīng)常誤觸發(fā)的話會很影響用戶體驗。
這種誤識別其實在手勢交互中也是存在的。為了減少誤觸發(fā),可以提高識別的閾值,但這也可能提高漏識的概率。
當然,技術(shù)是不斷進步的, 在算法不斷更新、樣本不斷增加的基礎(chǔ)上,識別的準確率在未來肯定會有提升。
3. 干擾
三種交互形式都可能被相應的干擾影響,從而降低操作的準確性。例如語音交互在嘈雜的環(huán)境中,手勢交互在強烈的陽光下,或者觸控交互在寒冷的雪地里。
四、學習成本
語音交互屬于最自然的交互方式之一。它能承載非常豐富的指令,卻不需要用戶專門學習如何使用。
不過不少智能音箱都存在互動頻率較低的問題,用戶在使用時可能只是局限于某些已知功能,沒有進一步探索或嘗試。
因此,語音交互的學習成本在于,要教會用戶使用更多的功能。例如Siri會顯示引導“你可以這樣問我”;小愛同學也會在完成用戶的日常指令后推薦一些自己的其他功能,比如講個笑話。
觸控交互已經(jīng)深深地融入我們的生活,從以前拉閘的燈,到現(xiàn)代每天使用的手機。有很多從各個角度講如何降低產(chǎn)品學習成本的文章,此處就不贅述了。降低學習成本的一個經(jīng)典例子就是擬物化設(shè)計,讓當時的用戶更容易從圖標聯(lián)想到對應的實體按鍵。
手勢交互的學習成本相對較高。在使用語音或觸控時,即便你隨便說點什么,也會有一定的反饋和結(jié)果。而手勢觸控,則通常需要用戶比出代表正確含義的手勢才會生效。
設(shè)計師能做的,是在設(shè)計相應手勢前做好詳細的用戶調(diào)研,盡量使手勢符合用戶的潛意識,更易于學習和記憶。
五、情感互動
而在調(diào)動用戶情感方面,語音交互自帶加成。聲音是一種有溫度的介質(zhì),我們會不自覺地通過聲音的感覺、說話的語音語調(diào)去想象這個聲音背后的形象。尤其是現(xiàn)在的算法極大地豐富了語音進行互動的能力后,這種溫度感更加被放大了。
就像電影《Her》中,男主與AI語音陷入了愛情。在《設(shè)計心理學3》中,作者將情感設(shè)計分為三個層面。語音交互的優(yōu)勢是容易讓用戶從本能層面就開始產(chǎn)生舒適、親切的感覺。
目前手機上常見的情感化設(shè)計,很多是對內(nèi)容進行設(shè)計加工,從而和用戶產(chǎn)生情感互動,而不是說觸控交互這種形式本身承載了情感。
未來隨著VR的發(fā)展,也可能有一些其他的想象空間。例如通過手勢可以和游戲內(nèi)的角色直接互動,或者有新一代的手套能給大家更真實的觸感。
六、隱私性
觸控設(shè)備的喚起通常是物理性的,而語音和手勢的喚起則比較虛幻,設(shè)備需要一直“聽”或者“看”你是否發(fā)出了指令。
這種對指令的實時監(jiān)測意味著設(shè)備需要一直接受外界的信息。在這個過程中,難免會采集到一些用戶非常私人的信息,尤其是在家居、車載這樣相對封閉私密的環(huán)境。
前段時間有新聞報道,Google Home會將用戶的對話錄音賣給承包商,從中獲得一定利潤。
同時,彭博社也在報道過,Alexa的員工在監(jiān)聽用戶與Alexa的私人對話,目的是為了對談話內(nèi)容進行人工分析,從而在未來的使用中提供更準確的回應。在監(jiān)聽期間,甚至有審核員聽到性侵現(xiàn)場后警方報警的事件發(fā)生。
聯(lián)想到之前的一則社會新聞,一男子對妻女使用嚴重的家庭暴力,而這場暴力之所以會被公之于眾,居然是因為有人非法入侵了這些家用攝像頭看到了這個場景。
這些犯罪事件是絕對需要嚴懲的,可是這些也暴露了信息采集的設(shè)備存在不小的風險。對于更多遵紀守法的人而言,生活被無時無刻地監(jiān)控,也是一件非??膳碌氖虑椤?/p>
觸控的隱私性則相對好很多。雖然各種廠商會對用戶瀏覽搜索關(guān)心的內(nèi)容進行分析以便更精準地推送廣告,但是它對于私人生活的侵入性,則比另外兩種交互方式小不少。
如何讓公眾產(chǎn)生信任,我認為也是需要解決的重要問題。不論是通過規(guī)范各項流程,加強保密手段還是優(yōu)化產(chǎn)品喚醒機制……打消消費者的顧慮,也有助于自己產(chǎn)品的推廣。
以上為個人觀點,歡迎一起討論╰(●’?’●)╮。
作者:迷思特圓;公眾號:迷思特圓(ID:mryuan55)
本文由 @迷思特圓 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!