沒有真用戶,何談?dòng)脩趔w驗(yàn)?——AI 合成測(cè)試的致命陷阱
隨著AI技術(shù)的快速發(fā)展,一種名為“合成用戶測(cè)試”的研究方式悄然興起,試圖通過(guò)AI生成的“虛擬用戶”來(lái)模擬真實(shí)的用戶體驗(yàn)研究。這種看似高效、低成本的測(cè)試方法,是否真的能夠替代傳統(tǒng)的真實(shí)用戶研究?
當(dāng)下,一種名為”合成用戶測(cè)試”的 AI 研究方式正在興起——通過(guò)人工智能生成的”虛擬用戶”來(lái)模擬用戶體驗(yàn)研究。這種技術(shù)已經(jīng)從最初的桌面研究,逐漸滲透到產(chǎn)品可用性測(cè)試領(lǐng)域,只不過(guò)測(cè)試對(duì)象變成了會(huì)”演戲”的 AI 角色。簡(jiǎn)而言之,這就是一場(chǎng)沒有真實(shí)用戶參與的”用戶體驗(yàn)研究”秀。
一款無(wú)需真實(shí)用戶即可進(jìn)行“合成測(cè)試”的工具。 圖片來(lái)源:[Synthetic Users]
這種做法看似荒誕,卻正被越來(lái)越多的企業(yè)采納,用以指導(dǎo)商業(yè)決策。然而這種”研究”不僅危險(xiǎn)、高風(fēng)險(xiǎn)且成本高昂,更會(huì)嚴(yán)重削弱產(chǎn)品的用戶價(jià)值。
快速、廉價(jià)、便捷…但純屬虛構(gòu)
正如埃里卡·霍爾(Erika Hall)的經(jīng)典論述:”設(shè)計(jì)’以人為本’的程度,取決于商業(yè)模式的容忍度。”當(dāng)企業(yè)決策長(zhǎng)期依賴直覺、假設(shè)和個(gè)人觀點(diǎn)時(shí),他們自然對(duì)嚴(yán)謹(jǐn)?shù)挠脩粞芯咳狈εd趣。
用戶痛點(diǎn)正是創(chuàng)造價(jià)值的機(jī)會(huì)。圖表來(lái)源:[Erika Hall]
與傳統(tǒng)用戶研究相比,這種美其名曰”合成測(cè)試”的 AI 研究具有快速、廉價(jià)、可重復(fù)的優(yōu)勢(shì)。它不會(huì)提出令人不適的問(wèn)題,不會(huì)推翻既有假設(shè),無(wú)需招募用戶,也省去了冗長(zhǎng)的討論過(guò)程。更吸引人的是,它能同時(shí)操控?cái)?shù)千個(gè) AI 角色,通過(guò)分析 AI 生成的數(shù)據(jù)來(lái)”發(fā)現(xiàn)”用戶旅程、導(dǎo)航模式和預(yù)期行為。
聽起來(lái)很美好?但問(wèn)題恰恰由此開始。
大語(yǔ)言模型本質(zhì)是”討好型人格”
優(yōu)質(zhì)的用戶研究必須植根于真實(shí)發(fā)生的事件,而非臆測(cè)。而大語(yǔ)言模型(LLMs)的本質(zhì),是基于訓(xùn)練數(shù)據(jù)生成最”合理”的輸出——這些數(shù)據(jù)來(lái)自網(wǎng)絡(luò)上所謂”典型用戶”的行為模式。問(wèn)題是,這些用戶根本不存在。
默認(rèn)情況下,AI 生成的用戶畫像既未經(jīng)篩選也不具代表性。要讓輸出結(jié)果勉強(qiáng)可用,我們必須精心設(shè)計(jì)提示詞,詳細(xì)說(shuō)明真實(shí)用戶的特征和行為模式。即便如此,AI 也無(wú)法生成超出預(yù)設(shè)范圍的洞見——而這恰恰是真實(shí)用戶研究最珍貴的部分。
大語(yǔ)言模型存在”幻覺”問(wèn)題,但新模型在部分任務(wù)上表現(xiàn)更優(yōu)。 圖片來(lái)源:[Nature.com]
真正的用戶洞察往往來(lái)自意外行為——可能是用戶言行不一的瞬間,或是未被察覺的情感線索。這些都無(wú)法通過(guò)文字生成來(lái)復(fù)現(xiàn)。
AI 用戶研究”有總比沒有強(qiáng)”的謬誤
帕維爾·薩姆索諾夫(Pavel Samsonov)犀利指出:模仿用戶說(shuō)話毫無(wú)意義,只有用戶實(shí)際說(shuō)過(guò)的話、做過(guò)的事才值得研究(即便可能存在夸張)。AI 生成的用戶研究非但不是”有總比沒有強(qiáng)”,反而會(huì)制造虛假的用戶體驗(yàn)幻象——往好里說(shuō)是合理推測(cè),往壞里說(shuō)就是具有誤導(dǎo)性的無(wú)效信息。依賴這種”洞察”,跟算命先生看手相沒什么兩樣。
機(jī)械化決策的隱性成本
AI 自動(dòng)化決策往往伴隨著三大代價(jià):缺乏鑒別力、鼓勵(lì)同質(zhì)化、犧牲質(zhì)量。正如瑪麗亞·羅薩拉(Maria Rosala)和凱特·莫蘭(Kate Moran)所述,AI 研究必然存在偏差,若沒有真實(shí)研究作為對(duì)照,這些偏差將無(wú)法被發(fā)現(xiàn)和糾正。
更可怕的是,合成測(cè)試假設(shè)用戶都能被簡(jiǎn)單歸類,而現(xiàn)實(shí)中人類行為受經(jīng)歷、情境、習(xí)慣等復(fù)雜因素影響。AI 只會(huì)強(qiáng)化偏見、驗(yàn)證主觀臆斷,并放大刻板印象。
交叉驗(yàn)證法優(yōu)于單一驗(yàn)證
當(dāng)然,AI 在早期探索階段能提供有價(jià)值的切入點(diǎn)。但它同樣會(huì)帶來(lái)虛假印象和未經(jīng)驗(yàn)證的結(jié)論——而且總是以令人信服的確定性呈現(xiàn)出來(lái)。
以真實(shí)用戶研究為起點(diǎn)始終是最可靠的選擇。完成真實(shí)研究后,再用 AI 查漏補(bǔ)缺未嘗不可。AI 應(yīng)該輔助而非替代用戶研究。
通過(guò)疊加分析線性用戶旅程,識(shí)別高頻使用場(chǎng)景。(圖表來(lái)源:[John Cutler]
需要警惕的是,人們常試圖用真實(shí)用戶測(cè)試來(lái)”驗(yàn)證”AI生成的”洞察”。但心理學(xué)研究表明,一旦某個(gè)觀點(diǎn)在我們腦中形成,我們會(huì)不自覺地在各處尋找支持它的證據(jù)——即使這個(gè)觀點(diǎn)本身是錯(cuò)誤的。
正確的做法是:先研究真實(shí)用戶,再通過(guò)數(shù)據(jù)交叉驗(yàn)證——將用戶行為數(shù)據(jù)與產(chǎn)品分析數(shù)據(jù)交叉比對(duì)。當(dāng)多方數(shù)據(jù)共同驗(yàn)證某個(gè)假設(shè)時(shí),我們才能更有把握地推進(jìn)決策。
結(jié)語(yǔ)
可能有人覺得我過(guò)于武斷,但我一直在思考:為什么人們急于用 AI 工具取代用戶體驗(yàn)工作??jī)?yōu)秀的設(shè)計(jì)需要大量的批判性思維、細(xì)致觀察和周密規(guī)劃。
就個(gè)人經(jīng)驗(yàn)而言,清理 AI 生成內(nèi)容的謬誤所耗時(shí)間,往往超過(guò)從頭開始做研究。與真實(shí)用戶對(duì)話的價(jià)值無(wú)可替代——我寧愿花一整天接觸一個(gè)真實(shí)用戶,也不愿花一小時(shí)觀察一千個(gè)裝模作樣的 AI 角色。
作者:Vitaly Friedman 圖文編譯:倩華、筱沄
文章摘自:https://www.smashingmagazine.com/
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @用戶體驗(yàn)大學(xué)堂 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
清理 AI 生成內(nèi)容的謬誤所耗時(shí)間,往往超過(guò)從頭開始做研究,比如我們需要找到之前查找的內(nèi)容,但AI覆蓋率太大很多需要?jiǎng)h除才可以找到。