卡片分類法解析:究竟要測試多少用戶?
在卡片分類測試中,使用過多的測試用戶會(huì)使回報(bào)率遞減,但測試至少 15 個(gè)用戶,效果將是傳統(tǒng)可用性測試的 3 倍之多。
官網(wǎng)和內(nèi)網(wǎng)設(shè)計(jì)(注1)中最大的挑戰(zhàn)之一就是信息架構(gòu):在哪會(huì)發(fā)生什么?一個(gè)經(jīng)典的錯(cuò)誤類型就是根據(jù)如何查看內(nèi)容來構(gòu)建信息空間——這往往會(huì)導(dǎo)致公司各個(gè)部門或信息提供商擁有不同的子網(wǎng)站。
可以通過創(chuàng)建反映用戶查看內(nèi)容的信息架構(gòu)的方式,來提高可用性測試,而不是簡單地鏡像組織結(jié)構(gòu)。在每項(xiàng)企業(yè)內(nèi)部網(wǎng)絡(luò)調(diào)研中,我們發(fā)現(xiàn),當(dāng)企業(yè)重組內(nèi)部網(wǎng)反映員工工作流程時(shí),生產(chǎn)力會(huì)高效增長。而在電子商務(wù)中,當(dāng)產(chǎn)品出現(xiàn)在用戶期望找到的類別時(shí),銷售量會(huì)增加。
所有這一切都很棒,但如何找出用戶對信息空間的看法,以及他們認(rèn)為每個(gè)項(xiàng)目應(yīng)該如何進(jìn)行呢?為了研究這種心智模式,主要的方法是卡片分類法:
- 在索引卡上寫下每個(gè)主要項(xiàng)目的名稱(以及簡短描述)。沒錯(cuò),就是那種舊式的紙卡片。(注意不要使用讓用戶產(chǎn)生偏向的術(shù)語。)
- 隨意打亂卡片后交給用戶。(招募測試者的標(biāo)準(zhǔn),建議:他們必須是典型用戶,等等)
- 要求用戶將卡片分分類,將同一類的在一起。用戶可以根據(jù)自己的喜好進(jìn)行分類,包括類型的數(shù)量、類型的大小,等等。
- 可選的額外步驟包括:要求用戶將已有的分類分成更大的組、給不同的組和類命名。之后可以針對用于導(dǎo)航標(biāo)簽、鏈接、標(biāo)題和搜索引擎優(yōu)化的單詞和同義詞,給出建議。
由于卡片分類不使用技術(shù),這些 1995 年的組卡方式,在當(dāng)今看來,也并未過時(shí)。
一、研究進(jìn)展
富達(dá)投資集團(tuán)擁有一支非常棒的可用性測試團(tuán)隊(duì),由人機(jī)界面設(shè)計(jì)高級(jí)副總裁 Thomas S. Tullis 博士領(lǐng)導(dǎo)。Tullis 和合著者 Larry Wood 發(fā)布過一項(xiàng)研究結(jié)果,該研究測量了在卡片分類練習(xí)中測試各種用戶數(shù)量的權(quán)衡曲線。
首先,他們測試了 168 位用戶,有了非??煽康慕Y(jié)果。然后,他們通過分析總體樣本的隨機(jī)子集,使用較小用戶群對卡片分類研究的結(jié)果進(jìn)行模擬。例如,要模擬 20 個(gè)用戶的測試結(jié)果,他們從 168 個(gè)用戶中隨機(jī)抽取了 20 個(gè)用戶,并僅分析該小組的卡片分類數(shù)據(jù)。通過選擇多個(gè)類似的樣本,可以估計(jì)來自不同數(shù)量用戶測試的平均結(jié)果。
卡片分類研究中主要的定量數(shù)據(jù)是一組相似度分?jǐn)?shù),用于度量用戶對不同物品評分的相似度。如果所有用戶將兩張卡片分成同一組,那么由卡片代表的兩個(gè)項(xiàng)目將具有 100% 的相似度。如果有一半的用戶將兩張卡放在一起,一半放在不同的組中,那么這兩個(gè)項(xiàng)目的相似度為 50%。
我們可以通過研究的相似性得分與測試大量用戶群所得分?jǐn)?shù)的相關(guān)程度來評估較小的卡片分類研究的結(jié)果。(提醒:相關(guān)性從 -1 到 +1 ,相關(guān)性 1 表示完全一致;0 表示無關(guān);-1 表示相互對立。)
二、需要多少用戶?
對于大多數(shù)可用性研究來說,我建議測試 5 個(gè)用戶,因?yàn)檫@就能夠讓你獲得足夠的數(shù)據(jù)了,在測試中你能夠了解大部分可用性問題。但是,對于卡片分類,5 位用戶的結(jié)果與最終結(jié)果之間只有 0.75 的相關(guān)性。這個(gè)結(jié)果還不夠好。
測試 15 個(gè)用戶才能達(dá)到 0.90 的相關(guān)性,這是一個(gè)更加合適的范圍。在 15 個(gè)用戶之后,不但收益會(huì)遞減而相關(guān)性的增加也不明顯:測試 30 人相關(guān)性達(dá)到 0.95 ——這當(dāng)然更好,但通常不值雙倍的錢。超過 30 名用戶幾乎沒有任何改進(jìn):測試 60 人相關(guān)性達(dá)到 0.98,這么做無疑是一種浪費(fèi)。
Tullis 和 Wood 建議使用 20-30 個(gè)用戶進(jìn)行卡片分類測試。根據(jù)他們的數(shù)據(jù),我的建議是測試 15 個(gè)用戶。
為什么我建議測試更少的用戶?我認(rèn)為,大多數(shù)情況下,0.90(15 個(gè)用戶)或 0.93(20 個(gè)用戶)的相關(guān)性已經(jīng)足夠好了。如果你有一個(gè)大型的、資金充足的項(xiàng)目(比如一個(gè)涉及 10 萬名員工的內(nèi)部網(wǎng)絡(luò),或者一個(gè)收入為 5 億美刀的電子商務(wù)網(wǎng)站),我當(dāng)然希望測試 30 人使相關(guān)性達(dá)到 0.95。但大多數(shù)用戶研究資源非常有限,在 3 個(gè)不同的定性可用性測試中,每個(gè)測試 5 個(gè)用戶——共 15 人進(jìn)行的測試更為合適。
三、讓用戶盡情表達(dá)
我不建議純粹基于以卡片排序的相似性組織的信息架構(gòu)進(jìn)行設(shè)計(jì)。在決定哪里有什么的具體細(xì)節(jié)時(shí),應(yīng)該盡可能多地運(yùn)用在測試階段獲得的定性數(shù)據(jù)??ㄆ诸惖拇蟛糠謨r(jià)值來自聽取用戶的評論,因?yàn)槭撬麄儗ㄆM(jìn)行分類:你要知道,了解為什么人們將某些卡片放在一起,能夠更深入地了解他們的心理模型,而不是單純地將卡片分類到同一組中。
四、為什么需要更多的用戶進(jìn)行卡片分類?
我們知道對于大多數(shù)可用性研究,5 個(gè)用戶已經(jīng)足夠了,為什么卡片分類卻需要 3 倍的參與者才能達(dá)到相同的水平?因?yàn)樗鼈冊趦蓚€(gè)關(guān)鍵點(diǎn)上有所不同:
- 用戶測試是一種評估方法:我們已經(jīng)有了一個(gè)設(shè)計(jì),我們試圖找出它是否與人性和用戶需求相匹配。雖然人們在能力(領(lǐng)域知識(shí),智能和計(jì)算機(jī)技能)方面存在很大差異,但如果某個(gè)設(shè)計(jì)因素產(chǎn)生問題,在測試一些用戶之后,就會(huì)發(fā)現(xiàn)這些問題。低端用戶可能會(huì)比高端用戶遇到更嚴(yán)重的問題,但除非你正在進(jìn)行測量研究(這需要更多用戶),否則難度的大小并不是問題所在。你需要知道的是,設(shè)計(jì)元素如果不適用于人,就應(yīng)該改變它。
- 卡片分類是一種生成方法:我們還沒有設(shè)計(jì),我們的目標(biāo)是找出人們?nèi)绾嗡伎寄承﹩栴}。不同人的心智模式和他們用來描述相同概念的詞匯存在很大的差異。我們必須從一定數(shù)量的用戶那里收集數(shù)據(jù),才能獲得穩(wěn)定的用戶偏好畫像,并確定如何適應(yīng)用戶之間的差異。
如果你有一個(gè)現(xiàn)有的官網(wǎng)或內(nèi)部網(wǎng),測試一些用戶會(huì)告訴你信息架構(gòu)是否給人們帶來了問題。所以要從頭開始創(chuàng)建新的結(jié)構(gòu),必須抽取更多人進(jìn)行測試。
幸運(yùn)的是,你可以將這兩種方法結(jié)合:首先,使用生成性研究為設(shè)計(jì)確定方向。其次,設(shè)計(jì)一份草稿,最好使用紙質(zhì)原型,并進(jìn)行評估研究以改進(jìn)設(shè)計(jì)。因?yàn)榭捎眯栽u估速度快而且便宜,所以你可以做多次;并且還為你最初的創(chuàng)造性發(fā)現(xiàn)提供了質(zhì)量保證。這就是為什么你不應(yīng)該浪費(fèi)資源來壓縮卡片分類那最后 0.02 相關(guān)性的原因。在隨后的用戶測試中,你會(huì)發(fā)現(xiàn)任何小的錯(cuò)誤,這比卡片分類研究的規(guī)模增加一倍或三倍都要便宜得多。
五、研究的不足
富達(dá)研究有兩個(gè)明顯的不足:
- 這只是一項(xiàng)研究。有多家公司的數(shù)據(jù)會(huì)更好。
- 該分析純粹是定量的,側(cè)重于相似性的統(tǒng)計(jì)分析,忽略用戶評論和其他定性數(shù)據(jù)。
不過,這兩個(gè)不足卻不足以致命。我認(rèn)為這是一項(xiàng)開拓性的研究,對網(wǎng)絡(luò)可用性知識(shí)做出了巨大貢獻(xiàn)。但是,由于該研究存在缺點(diǎn),如果用不同的信息空間復(fù)制它,并且同時(shí)分析定性數(shù)據(jù)與定量數(shù)據(jù),將會(huì)非常有用。聽起來像是一個(gè)很好的研究生論文的選題,這個(gè)選題研究的是與真實(shí)世界影響相關(guān)的事物。
盡管數(shù)據(jù)多會(huì)讓人感到欣慰,但我對富達(dá)研究的結(jié)論充滿信心,因?yàn)樗鼈兣c我多年來從事卡片研究的觀察結(jié)果相符。我一直說,有必要為卡片分類測試更多的用戶,而不是傳統(tǒng)的可用性研究。我通常會(huì)推薦大約 15 位用戶進(jìn)行測試,不過在預(yù)算緊張或用戶特別難招募(只有 12 位用戶)的時(shí)候,也有不錯(cuò)的結(jié)果。
有好多中方法,在定量研究過程中,會(huì)誤導(dǎo)你。因此,如果你看到一個(gè)單獨(dú)的定量研究與定性研究中已知的所有結(jié)論相矛盾,一個(gè)謹(jǐn)慎的做法是忽視新研究并假定它很可能是假。但是當(dāng)一項(xiàng)定量研究證實(shí)了已知的信息時(shí),它很可能是對的,并且可以使用新的數(shù)據(jù)作為合理的預(yù)測值,即便這基于你現(xiàn)有的可憐的數(shù)據(jù)。
因此,當(dāng)前的建議是在大部分卡片分類中測試 15 位用戶,在有資金支持的大型項(xiàng)目中測試 30 位用戶。
參考:
- Tullis, Tom, and Wood, Larry. (2004) How Many Users Are Enough for a Card-Sorting Study?, Usability
- Professionals Association (UPA) 2004 Conference, Minneapolis, MN, June 7–11, 2004.
注釋:我希望擴(kuò)大網(wǎng)站的思考范圍到產(chǎn)品和服務(wù)層面
相關(guān)閱讀
Guerrilla 可用性測試:7 步 DIY 屬于你的可用性測試方法
有了這 10 個(gè)技巧,做好 Guerrilla 可用性測試不用愁
原文地址:https://www.nngroup.com/articles/card-sorting-how-many-users-to-test/
#專欄作家#
鄭幾塊,人人都是產(chǎn)品經(jīng)理專欄作家,前新浪微博產(chǎn)品經(jīng)理。
本文系作者@鄭幾塊 獨(dú)家翻譯授權(quán),未經(jīng)本站許可,不得轉(zhuǎn)載
題圖來自 Pixabay,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!