AI輔助診斷的幻覺問題是源自數(shù)據(jù)忽略
在醫(yī)療診斷領(lǐng)域,人工智能技術(shù)的應(yīng)用正日益普及,但其準(zhǔn)確性和可靠性仍然是公眾和專業(yè)人士關(guān)注的焦點(diǎn)。本文深入探討了AI輔助診斷中存在的挑戰(zhàn),特別是AI如何突破人類醫(yī)生診斷準(zhǔn)確率的“天花板”,以及如何識(shí)別和利用那些可能被人類醫(yī)生忽視的隱藏特征。
前段時(shí)間讀了杰羅姆·格魯普曼的《醫(yī)生如何思考》(How Doctors Think)。這本書我覺得任何接受過重大治療的人都應(yīng)該讀一下,它會(huì)徹底改變你對(duì)醫(yī)生的看法。書里提到一個(gè)讓我震驚的事實(shí):即使是通過委員會(huì)認(rèn)證的放射科醫(yī)生,他們大約有 15% 的時(shí)間會(huì)對(duì)自己的診斷意見不一致(如果沒記錯(cuò)的話)。
讓我好奇的是,既然人類醫(yī)生都有這種限制,那我們?cè)趺醋屓斯ぶ悄艿脑\斷準(zhǔn)確率比人類高?
目前的方法,比如放射科醫(yī)生的診斷,準(zhǔn)確率可能在 95% 左右。如果我們用這些準(zhǔn)確率只有 95% 的方法來訓(xùn)練 AI,那么 AI 怎么能突破這條“天花板”?它需要一些我們還沒意識(shí)到的知識(shí)來提高到 99.999% 的準(zhǔn)確度,但這些知識(shí)我們自己卻并不知道它們是什么。
舉個(gè)極端但形象的例子。假設(shè)有種叫紅流感的疾病,患者臉上會(huì)出現(xiàn)紅點(diǎn),這點(diǎn)大家都知道,但更少人注意到的是,這種病可能會(huì)在發(fā)病前四周讓腳趾甲變紫。人類醫(yī)生可能永遠(yuǎn)不會(huì)發(fā)現(xiàn)這個(gè)細(xì)節(jié),但 AI 可能會(huì)自動(dòng)發(fā)現(xiàn)兩者的聯(lián)系。問題是,我們?nèi)绾沃鲃?dòng)找到這些“紫腳趾甲”式的隱藏特征?
更復(fù)雜的是,我們的數(shù)據(jù)本身可能會(huì)欺騙 AI。拿肺癌來說,訓(xùn)練數(shù)據(jù)相對(duì)簡(jiǎn)單。我們可以只用活檢確認(rèn)過的癌癥患者的 CT 和 XR(而不是那些放射科醫(yī)生懷疑有癌癥但未確診的樣本),這樣訓(xùn)練出來的 AI 特異性幾乎是 100%。敏感性如何?這很難說,但實(shí)際上人類醫(yī)生的敏感性也沒有明確的標(biāo)準(zhǔn)。
但如果是肺炎,情況就完全不同了。肺炎沒有像活檢一樣的“金標(biāo)準(zhǔn)”來驗(yàn)證,診斷往往依賴 XR 上的特征和醫(yī)生的經(jīng)驗(yàn)判斷。訓(xùn)練數(shù)據(jù)不可避免會(huì)摻雜噪聲,這種情況下,AI 的特異性一定低于 100%。
不過即便如此,AI 的一致性可能讓它在實(shí)際表現(xiàn)中仍然優(yōu)于平均水平的醫(yī)生。即便訓(xùn)練數(shù)據(jù)并不完美,AI 也有可能接近頂級(jí)放射科醫(yī)生的表現(xiàn),這比普通醫(yī)生要好得多。
然而,AI 還有一個(gè)問題是它的“黑箱”屬性。我們不知道它在檢測(cè)癌癥時(shí)究竟看到了什么,忽略了什么,也無法完全理解它的決策過程。就像醫(yī)學(xué)本身更像一場(chǎng)概率游戲一樣,AI 也并非絕對(duì)確定的工具。
本文由人人都是產(chǎn)品經(jīng)理作者【羅福如】,微信公眾號(hào):【羅福如】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
畢竟ai大模型就是用大量的數(shù)據(jù)訓(xùn)練出來的,總有沒訓(xùn)練到位的地方。