語音設(shè)計:使用 AI 打造自然對話
隨著智能語音助手的普及,語音用戶界面(VUI)的設(shè)計變得越來越重要。本文深入探討了創(chuàng)建引人入勝且直觀的VUI的策略與最佳實踐,包括理解語音交互的特性、設(shè)計自然對話流程,以及解決隱私問題等。
語音用戶界面 (VUI) 正在迅速普及,允許用戶使用語音命令與 Amazon Alexa 和 Google Home 等設(shè)備進行交互。VUI 是一種用戶界面,使我們能夠通過語音(對話)與計算機(設(shè)備)進行通信,不是使用打字或點擊等傳統(tǒng)輸入方法。隨著越來越多的人采用聲控技術(shù),用戶體驗(UX)設(shè)計師在創(chuàng)建滿足用戶需求和期望的引人入勝且直觀的 VUI 方面面臨著新的挑戰(zhàn)。
語音交互設(shè)計與傳統(tǒng)的視覺界面設(shè)計有很大的不同。許多設(shè)計師嚴重依賴圖形元素、布局和視覺層次結(jié)構(gòu)來引導用戶并有效傳達信息。然而,在設(shè)計 VUI 時,這些視覺提示是缺失的,這就需要設(shè)計師專注于聲音、語氣和對話流程,以創(chuàng)造有效的用戶體驗。
ChatGPT 等高級語言模型的出現(xiàn)為 VUI 開辟了新的可能性,實現(xiàn)了更自然和更人性化的對話。這些人工智能(AI)驅(qū)動的助手可以理解上下文、提供相關(guān)回復(fù)并參與開放式對話。隨著語音技術(shù)的不斷發(fā)展,我們必須調(diào)整我們的技能和知識,以創(chuàng)建功能強大、情感引人入勝且值得信賴的 VUI,從而重塑我們在日常生活中與技術(shù)互動的方式。
模因(Meme)是對最新 ChatGPT-4o 語音助手功能推出的表情反應(yīng)
一、了解語音交互的特性
語音交互在幾個關(guān)鍵方面與傳統(tǒng)的圖形用戶界面 (GUI) 交互有所不同:線性和短暫性:語音交互是
線性和短暫的,這意味著用戶一次只能處理一條信息,并且與視覺界面不同,他們無法輕易地回顧之前的信息。在 GUI 中,用戶可以瀏覽屏幕并快速找到他們需要的信息,但在 VUI 中,他們必須依靠記憶和系統(tǒng)的提示來引導對話。
缺乏視覺提示:如果沒有視覺提示,用戶必須依靠聽覺反饋和記憶來導航界面,這會增加認知負荷。在 GUI 中,設(shè)計師使用按鈕、菜單和圖標等視覺元素來引導用戶并提供交互功能。在 VUI 中,設(shè)計師必須使用聲音設(shè)計、語音提示和對話流來引導用戶并傳達可用的操作。
自然語言:用戶使用自然語言與 VUI 進行交互,這可能會產(chǎn)生歧義且依賴上下文。設(shè)計者必須考慮到用戶表達方式的多樣性。在 GUI 中,用戶只能與一組有限的預(yù)定義控件進行交互,而 VUI 則不同,它必須能夠理解并響應(yīng)用戶的各種表達,包括不同的措辭、口音和語言風格。下面這個著名的蘇格蘭電梯小品展示了其中的一些挑戰(zhàn)。
Scottish Elevator – Voice Recognition – ELEVEN !
https://www.youtube.com/watch?v=NMS2VnDveP8
隱蔽性:VUI 是不可見的,這意味著用戶無法一眼看到可用的選項或系統(tǒng)的功能。在 GUI 中,用戶可以通過瀏覽菜單和點擊按鈕來探索界面和發(fā)現(xiàn)新功能。然而,在 VUI 中,用戶必須依靠系統(tǒng)的提示和自己對系統(tǒng)功能的心智模型,了解系統(tǒng)可以做什么來發(fā)現(xiàn)新的特性和功能。
針對這些獨特的特征進行設(shè)計,就必須深入了解用戶的需求、期望和心智模型。設(shè)計師必須預(yù)測用戶如何使用自然語言與系統(tǒng)進行交互。這就需要將思維從視覺設(shè)計轉(zhuǎn)變?yōu)閷υ捲O(shè)計,重點關(guān)注對話流、提示的清晰度以及響應(yīng)的自然度。
二、設(shè)計有 VUI 的最佳實踐
在設(shè)計 VUI 時,首先必須了解用戶的要求、需求以及他們使用 VUI 的具體環(huán)境,這一點至關(guān)重要。這就需要認識到用戶所處的環(huán)境、他們想要實現(xiàn)的目標以及他們可能遇到的任何限制。為了實現(xiàn)這一點,開展用戶研究是關(guān)鍵。
在設(shè)計 VUI 時,我們還可以牢記一下一些實踐:
設(shè)計對話流程:模擬人與人之間的互動,創(chuàng)建自然直觀的對話流。運用輪流發(fā)言、反饋和修復(fù)策略等原則確保交流順暢。例如,當輪到用戶發(fā)言時,系統(tǒng)應(yīng)提供清晰的提示,并能優(yōu)雅地處理中斷和來回交流的情況。
保持簡短和專注的交互:用戶更喜歡與 VUI 進行簡短、專注(突出重點)的交互。通過將復(fù)雜的任務(wù)分解成更小、更易于管理的步驟,并提供清晰、簡潔的提示,從而簡化設(shè)計。例如,與其向用戶展示一長串選項,不如向他們提供一系列簡短、具體的問題來引導他們完成任務(wù)。
提供明確反饋和確認:確保用戶始終知道系統(tǒng)在做什么以及對他們的期望是什么。提供清晰的反饋和確認信息,以保持透明度并建立信任。例如,在用戶提出請求后,系統(tǒng)應(yīng)確認所聽到的內(nèi)容,并提供任務(wù)的最新狀態(tài)。為此,你還可以使用視覺提示和特定聲音。
妥善處理錯誤:預(yù)測潛在的用戶錯誤,并為用戶提供恢復(fù)錯誤的方法。使用漸進式披露引導用戶回到正軌,并提供有用的錯誤信息,建議用戶采取其他行動。例如,如果用戶提出了模棱兩可的請求,系統(tǒng)應(yīng)要求用戶作出澄清,并提供用戶可以說什么的示例。
優(yōu)化免提和免視交互:針對用戶可能正在處理多項任務(wù)或視覺注意力有限的場景進行設(shè)計。確保在沒有視覺反饋或手動輸入的情況下也能有效使用 VUI。例如,語音控制的烹飪助手應(yīng)能引導用戶一步步完成食譜,而不需要用戶看屏幕或用手操作。
示例:語音助手 Home Connect
個性化體驗:利用用戶數(shù)據(jù)和上下文提供個性化互動。利用自然語言處理和機器學習,隨著時間的推移適應(yīng)用戶的偏好和行為。例如,語音控制的音樂播放器應(yīng)能了解用戶最喜歡的音樂類型和藝術(shù)家,并根據(jù)他們的收聽歷史進行個性化推薦。
優(yōu)先考慮簡單性和清晰度:避免使用專業(yè)術(shù)語和復(fù)雜語言,確保不同技術(shù)水平的用戶都能輕松與界面互動的一種方式。例如,選擇簡單的命令,如“要打開客廳的燈,只需說【打開客廳的燈】”,而不是”要啟動主要起居空間的照明,請口頭發(fā)出【啟動客廳照明】的命令“。
平衡效率與可發(fā)現(xiàn)性:雖然用戶希望交互快速高效,但他們也需要能夠發(fā)現(xiàn)新的功能和特性。多種策略可以幫助達到這種平衡,例如,漸進式披露、上下文(情境)建議,以及用戶友好的引導和教程。
三、解決隱私問題
在使用 VUI 時,用戶經(jīng)常擔心的一個方面是其對隱私的影響。語音系統(tǒng)始終在監(jiān)聽,有可能收集到敏感數(shù)據(jù)。嘗試解決這些問題非常重要。以下是一些建議:
數(shù)據(jù)收集和使用保持透明:明確告知正在收集哪些數(shù)據(jù),如何使用這些數(shù)據(jù),以及用戶如何控制自己的隱私設(shè)置。例如,一款語音控制的智能音箱應(yīng)提供清晰的信息,說明它收集了哪些數(shù)據(jù),并讓用戶能夠選擇退出數(shù)據(jù)收集或刪除他們的語音記錄的能力。
提供隱私控制:給予用戶對其數(shù)據(jù)的控制權(quán),并能夠根據(jù)需要刪除或修改數(shù)據(jù)。例如,一款語音控制的虛擬助手應(yīng)允許用戶查看和刪除他們的對話歷史,并提供對收集的數(shù)據(jù)類型進行精細控制。
實施安全數(shù)據(jù)實踐:確保用戶數(shù)據(jù)的安全存儲和傳輸,并遵循數(shù)據(jù)保護和隱私的最佳實踐。這包括使用加密、安全認證和定期安全審計,以保護用戶數(shù)據(jù)免遭未經(jīng)授權(quán)的訪問或泄露。
四、結(jié)論
設(shè)計 VUI 需要以用戶為中心,考慮語音交互的獨特性。通過遵循對話設(shè)計的最佳實踐并解決隱私問題,我們可以開發(fā)出能滿足用戶需求和期望的、引人入勝且有效的語音用戶界面。
本文由人人都是產(chǎn)品經(jīng)理作者【TCC翻譯情報局】,微信公眾號:【TCC翻譯情報局】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!