可用性測試溯源:5個人就夠了?

3 評論 6327 瀏覽 12 收藏 16 分鐘

編輯導(dǎo)語:做可用性測試時,要注意什么?大廠在做可用性測試時有什么不一樣?找多少個用戶做可用性測試才合適?本文就此問題做了分析和解答,希望對你有所幫助。

你是否常常覺得看不懂“可用性測試”這個東西,感覺它做法復(fù)雜、又不知道具體哪些環(huán)節(jié)必須做、哪些環(huán)節(jié)不用做?“大廠”做可用性測試是否會更嚴(yán)謹(jǐn)、寫更多文檔?究竟找多少個用戶做可用性測試才合適?

假如你有以上疑問,這篇文章適合你繼續(xù)閱讀。本文部分觀點來自《人因?qū)W手冊》handbook of human factors and ergonomics的“可用性測試”一章。

一、你也是半個心理學(xué)家

我之前反復(fù)提過,我們體驗設(shè)計現(xiàn)在的主流研究方法大部分從社會學(xué)或者心理學(xué)里移植而來,而可用性測試就直接脫胎于認(rèn)知心理學(xué)的看家研究方法“實驗法”。

假如有讀者小時候上幼兒園的職業(yè)理想曾經(jīng)是“做實驗、當(dāng)科學(xué)家”,那么恭喜你,當(dāng)設(shè)計師會做可用性測試,某種程度上也算是部分實現(xiàn)了你當(dāng)年的心愿。先給自己一點鼓勵。

認(rèn)知心理學(xué)的基本思路是把人的心理活動理解成一套像精密機械一樣的信息加工系統(tǒng),里面的各個零件可以拆開來各自研究的:比如人的注意力、記憶,或者某種感受。它有許多的研究內(nèi)容都是很微觀的概念和現(xiàn)象,這些(短期)現(xiàn)象發(fā)生得非??臁⒉⑶以谧匀画h(huán)境下受各種因素影響干擾,很難測量。

因此為了在現(xiàn)象或概念間建立有力的因果關(guān)系,認(rèn)知心理學(xué)作為橫跨社科和自然科學(xué)兩個領(lǐng)域的一門學(xué)科,向自然科學(xué)取經(jīng)從而發(fā)展出了很成熟的控制實驗技術(shù)(包括咱們比較常見的眼動儀實驗)。

這個方法后來輻射到了各個其他社會學(xué)科中,又誕生了“實地實驗”(field experiments,自然實驗/社會實驗)的說法,其思路很像我們今天經(jīng)常做的AB test。

還是拿我們上篇文章的“可愛小貓論”作案例,假設(shè)你是一個很有才華的心理學(xué)家,發(fā)現(xiàn)小貓可愛程度會影響人的身心健康,養(yǎng)越可愛的貓越有利于身心健康。你要如何證明這一點?

可用性測試溯源:5個人就夠了?

  1. 我們需要確定這個現(xiàn)象普遍廣泛存在,而不是僅僅存在在你這個貓奴身上的個例,因此一定需要通過定量的方法做驗證。
  2. 在現(xiàn)實生活中能對人的身心健康產(chǎn)生影響的東西太多了,比如這個月老板老給你穿小鞋,導(dǎo)致你身心受到了巨大打擊;下個月你苦練搏擊,身心健康又增長不少,那么如何從這么多因素中抽離出貓咪對你的影響,而過濾職場/鍛煉/飲食等其他因素的影響?
  3. 也許養(yǎng)貓和身心健康是有關(guān)系,但其實是身心健康較弱的人更不愿意養(yǎng)貓,而非反過來——如何能準(zhǔn)確探究這兩個因素的關(guān)系?

答案是在實驗室環(huán)境下嚴(yán)格地控制變量,通過對實驗環(huán)境和環(huán)節(jié)的科學(xué)設(shè)置、對被試者情況的篩選和抽樣來確保得到精準(zhǔn)的結(jié)果。

比如你可以假設(shè)被試對貓的喜愛程度、貓的可愛度都可能影響實驗結(jié)果,所以你可以被試分成4個單元小組:不可愛的貓配不喜歡貓的人、可愛的貓配不喜歡貓的人、不可愛的貓配喜歡貓的人、可愛的貓配喜歡貓的人。

在測量了人的初始身心健康程度后,讓他們與貓呆3小時,然后再次測量人的身心健康程度。此外還需要配備一個對照組,這個組的人只能看3小時動畫片——這就是一個很簡單的小實驗。

可用性測試溯源:5個人就夠了?

由此可以看出控制實驗法和其他的研究方法相比,完全脫離了情境,所以實驗室內(nèi)的結(jié)果是否可以推廣到實際生活中去,是需要打一個大大的問號的,但正因為如此,實驗法也為驗證因果關(guān)系創(chuàng)造了可能性。這一點也就是我之前在不要從“交互設(shè)計定理”入門交互設(shè)計中強調(diào)的。

說回到咱們的可用性測試,根據(jù)《人因?qū)W手冊》的說法,可用性測試在80年代初被提出后馬上在80~90年代風(fēng)行于業(yè)界,影響了施樂(Xerox)、蘋果、IBM等一代明星公司的產(chǎn)品評估流程。

在可用性測試引進之初從業(yè)者仍然比較嚴(yán)格地遵守控制實驗的方法,對測試的環(huán)節(jié)設(shè)計、環(huán)境設(shè)置要求十分嚴(yán)格,是一種主要用于評估/對比設(shè)計方案的、定量的、脫離情景的手段。

舉個例子,為了得到比較嚴(yán)謹(jǐn)?shù)慕Y(jié)果,可用性測試應(yīng)該:

  • 做預(yù)測試:在設(shè)計完實驗流程后需要先找一些被試,看看控制變量的手段是否有效
  • 考慮組內(nèi)實驗還是組間實驗:比如是找同一個用戶測試3組設(shè)計圖,還是3個不同的用戶每人測試1組設(shè)計圖
  • 考慮實驗順序:假如找同一個用戶測試3組設(shè)計圖,那么先看哪個、后看哪個
  • ……

此外,各個公司會為了可用性測試搭建專門的、昂貴的可用性實驗室。在實驗室環(huán)境下對用戶發(fā)布任務(wù)、進行測試,主要是為了規(guī)避噪音、燈光、外來人員打斷等干擾因素對實驗結(jié)果的影響。比如下圖就是一個典型的可用性測試實驗室。

可用性測試溯源:5個人就夠了?

二、發(fā)展與“5個就夠了”

90年代后隨著可用性測試相關(guān)的應(yīng)用和研究快速發(fā)展,可用性測試的概念也從驗證性研究逐漸擴展到形成性的、探索性研究

對可用性測試的要求也遠遠沒80年代那么高了,到今天據(jù)我所知很多廠的用戶研究部門把可用性測試?yán)斫獾睾軐挿?,只要和用戶有接觸、只要設(shè)置了任務(wù),都可以勉強講是“可用性測試”。

這樣做測試不再需要嚴(yán)格的實驗室環(huán)境與變量控制技術(shù),反而更加偏向?qū)嵉卣{(diào)研,讓用戶在自己熟悉的環(huán)境中完成任務(wù)。

造成這個發(fā)展的原因其實有很多:

(1)軟件開發(fā)模式變了

70~80年代盛行的瀑布流式開發(fā),要求軟件的設(shè)計開發(fā)者一次性完全完成一個環(huán)節(jié)后,再邁入下一個環(huán)節(jié)。比如你做設(shè)計時,需要提前想好未來需要應(yīng)對的所有場景,一次把幾千張設(shè)計圖全部交付開發(fā),開發(fā)開始寫所有的頁面,寫完了這幾千張圖再上市。

這種開發(fā)模式在90年代被敏捷開發(fā)或迭代開發(fā)逐漸替代,這要求設(shè)計者出一版能用的先做出來,根據(jù)用戶反饋再迭代之前的想法。因此,設(shè)計師對于快速定位設(shè)計問題的訴求大大提升,而可用性測試作為一種有用戶參與的評估方式(可能是唯一一種),可以滿足這種訴求。

(2)從調(diào)研目的的角度上來講,我們作為設(shè)計者說到底和科學(xué)家做的事兒是不同的

對于科學(xué)家來講研究概念之間的相互關(guān)系是有意義的,其最終的目的是形成一個具有解釋力的學(xué)說。但對于設(shè)計師來說我們需要選出更優(yōu)的設(shè)計,但并不關(guān)心究竟是哪個變量導(dǎo)致了設(shè)計最優(yōu)、變量之間相互的關(guān)系是啥。

比如你可能做了兩個稿子,A稿紅色按鈕放右邊、B稿橙色按鈕放左邊,最終用戶覺得B稿好,你的研究就結(jié)束了;而心理學(xué)家需要去思考到底是位置、顏色,還是別的什么因素影響了用戶的什么體驗,最終導(dǎo)致用戶的決策?

對控制變量的嚴(yán)格要求,最終導(dǎo)致做一場嚴(yán)格的控制實驗成本超高,除去復(fù)雜的控制變量帶來的成本以外,為了讓整個實驗可以使用統(tǒng)計學(xué)分析,一般會要求每個單元小組的樣本量大于30——做學(xué)術(shù)也許可以不那么考慮成本,但企業(yè)總是會思考投入產(chǎn)出比。

可用性測試溯源:5個人就夠了?

比如90年代軟件業(yè)界就曾經(jīng)把當(dāng)時出現(xiàn)的專家啟發(fā)式評估、認(rèn)知走查這些無需用戶參與、專家進行即可的方法當(dāng)成可用性測試的廉價替代品。雖然后來被證實沒有方法可以替代用戶評估——專家走查出來的問題往往不是真實用戶遇到的問題,而往往是一無傷大雅的小細節(jié)。

(3)90年代尼爾森寫了一篇關(guān)于可用性測試樣本量的文章,極大地鼓舞了用可用性測試做探索性研究、尋找可用性問題的做法

這篇文章我最開從《用戶體驗度量》里讀到,我把這個理論叫“5個就夠了”論。

可用性測試溯源:5個人就夠了?

尼爾森將此前為一些產(chǎn)品做的可用性測試與專家評估結(jié)果整理了一下,用一個泊松模型來預(yù)測參與可用性測試的用戶數(shù)或參與評估的專家數(shù)與最后找到的可用性問題的比例之間的關(guān)系,最終“發(fā)現(xiàn)5個用戶就能發(fā)現(xiàn)83%的問題”。

下面這張圖能看出來假如拆分了可用性測試和專家評估,那么可用性測試需要的人數(shù)稍微多一些,5個用戶大約能發(fā)現(xiàn)70%的問題。

可用性測試溯源:5個人就夠了?

現(xiàn)在看來尼爾森這個模建得說不上多么精細。注意這個圖里的因變量是百分比,“1”代表“所有被發(fā)現(xiàn)的問題”,而不代表“本系統(tǒng)所有可能存在的問題”,所以尼爾森這個結(jié)論正確的解讀方式是,假設(shè)他們測試了20個用戶最終發(fā)現(xiàn)了10個問題,那么5個用戶就能發(fā)現(xiàn)其中8個問題。

這種問題的重疊很有可能是因為對用戶的不當(dāng)抽樣帶來的。比如我們現(xiàn)在很多系統(tǒng)存在不同的用戶角色與用戶場景,用戶個體的技能水平也有差異,因此不同用戶組的關(guān)注點、問題點可能都是不一樣的,很可能這一組用戶找不到另外一組的問題,這一點在《用戶體驗度量》也有所說明。

后來尼爾森在他公司的網(wǎng)站上對“5個就夠了”論做出了補充,當(dāng)前版本的可用性測試結(jié)合了設(shè)計迭代的動作,更偏向定性的、個案研究的思路。按他現(xiàn)在的話來講,可用性測試這個事情應(yīng)該多次多輪的進行:首先選取5個人可用性測試-然后馬上對設(shè)計進行修改和迭代-再找另外5個人重復(fù)進行可用性測試,看看他們有沒有新的觀點,如此多輪往復(fù),最終打磨出一版好設(shè)計。

三、怎么做更好

我們總結(jié)一下:假如你不太熟悉可用性測試的發(fā)展脈絡(luò),那可能會對這個東西有點犯迷糊:一會要設(shè)置任務(wù),一會要發(fā)問卷,一會又要觀察用戶的動作;一會5個就夠了,一會又要多找?guī)讉€人。簡單來講:

  • 假如你做可用性測試是為了發(fā)現(xiàn)問題,5個人夠了。雖然要設(shè)置任務(wù)但不需要太嚴(yán)謹(jǐn),以快取勝
  • 假如你做可用性測試是為了對比方案/評估方案的優(yōu)劣程度,5個人不夠。嚴(yán)格來說每個組至少30人,但我們畢竟不做學(xué)術(shù),少一點也勉強可接受。雖然今天已經(jīng)基本不做嚴(yán)格的實驗設(shè)計,但應(yīng)該盡量減少對用戶的言語干擾、指導(dǎo),讓用戶自由體驗產(chǎn)品

最后關(guān)于樣本量的事情我再多說兩句。雖然調(diào)研的用戶數(shù)量是一個困擾大部分設(shè)計師的問題,但根據(jù)我個人的經(jīng)驗來看,可用性測試是“多做比少做好,但做了一定比不做好”的一件事。對上線前的飛機稿來說,即使你只找1個用戶看了你的設(shè)計,甚至你只找同事看了一眼你的設(shè)計,都會比你閉門造車要更好。不要懼怕做體驗調(diào)研,也不要認(rèn)為非要花多大代價才算在做體驗調(diào)研。

 

作者:白話說交互;微信公眾號:白話說交互(ID:gh_96e304585325)

本文由 @白話說交互 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 很有幫助的文章!看了收獲頗豐,初步了解了“可用性測試”。

    來自上海 回復(fù)
  2. 閉門造車真的噠咩!溝通的好處希望每個人都能體會到

    回復(fù)
  3. 對我很有幫助的文章,又漲知識了。感謝作者分享!

    來自廣西 回復(fù)