AI可以是殺戮的武器,也可以是救世的良方

1 評論 3125 瀏覽 8 收藏 26 分鐘

本文主要講述了吳恩達團隊最新成果——用深度學習來改善臨終關(guān)懷服務(wù),希望可以給你帶來啟發(fā)和思考。

上周,在日內(nèi)瓦舉行的聯(lián)合國特定常規(guī)武器公約會議上,伯克利大學教授Stuart Russell向大眾發(fā)出了警告:基于AI的殺人機器人將會對人類造成極大的威脅。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

與此同時,吳恩達所在的斯坦福團隊又將AI在醫(yī)療領(lǐng)域的作用往前推進了一不。與此前的“AI看片”不同,這次,吳恩達希望利用深度學習技術(shù),為那些身患絕癥、時日不多的病人,更好地提供臨終關(guān)懷服務(wù),讓他們更有尊嚴地度過剩下的日子。

聽起來似乎有點不可思議,那么吳恩達團隊到底是怎么做的呢?下面的這篇論文或許可以給我們一些思考和啟迪。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

摘要

為住院病人提供更高質(zhì)量的姑息治療一直是醫(yī)療保健機構(gòu)的重點工作之一。研究表明,醫(yī)生們往往會過高估計預(yù)后效果,加之治療手段的慣性,導致病人實際得到的姑息治療不如預(yù)期。為此,我們提出了一種解決方案:利用深度學習的技術(shù)加上電子健康檔案(EHR)數(shù)據(jù)。目前一家學術(shù)醫(yī)療中心已得到機構(gòu)審查委員會的批準,正在對這種方法進行試驗。算法會自動評估住院病人的EHR數(shù)據(jù),幫助姑息治療懷團隊判斷哪些病人可能需要姑息治療。該算法實際上是用病人先前的HER數(shù)據(jù)訓練出來的一個神經(jīng)網(wǎng)絡(luò),它可以預(yù)測出病人由于各種原因在3至12個月內(nèi)死亡的幾率,以此作為是否為其提供姑息治療的一個指標。我們的預(yù)測可以讓姑息治療團隊以積極主動的方式找到此類病人,而不是依賴主治醫(yī)師的推介,或花時間研究所有病人的病例。另外,我們還提出了一種新的解釋方法,用以詮釋模型作出的預(yù)測。

引言

研究表明,大約80%的美國人希望能在自己家中度過生命的最后時光,但是如愿的只有20%。事實上,超過60%的死亡發(fā)生在醫(yī)院的急診病房,而病人在臨終前的最后一段時間會接受侵入性治療。在過去10年間,可以提供姑息治療的醫(yī)院一直在增加。在2008年,全美所有病床數(shù)超過50張的醫(yī)院中,有53%的醫(yī)院設(shè)有姑息治療團隊,2015年這一比例已攀升至67%。雖然可以提供姑息治療的醫(yī)院越來越多,但是根據(jù)國家姑息治療登記處(National Palliative Care Registry)的數(shù)據(jù),在所有需要接受姑息治療的病人(占所有住院病人7% – 8%)中,只有不到一半的人真正接受了這種治療。造成這種情況的主要原因是姑息治療專業(yè)人員的短缺以及缺乏讓醫(yī)療系統(tǒng)聘用這些人員的激勵措施。通過相關(guān)技術(shù)我們可以高效地識別出最需要姑息治療的病人,但是在現(xiàn)有治療模式下人們可能會忽視技術(shù)的應(yīng)用。

在本文中,我們主要從兩個角度探討這個問題。首先,醫(yī)生不推薦病人接受姑息治療的原因有很多,例如:對病情的預(yù)估過度樂觀、時間壓力或治療慣性。這可能會導致病人在臨終前無法按照自己的意愿生活,反而接受過度的侵入式治療。其次,姑息治療專業(yè)人員短缺嚴重,這使得通過人工審查病例的方法對候選病人進行篩選既昂貴又耗時。

人們可能很難明確地規(guī)定一個標準,用來判定哪些病人能從姑息治療中獲益。在本論文中,我們使用深度學習算法對住院病人進行篩選,識別出最有可能需要接受姑息治療的病人。該算法處理的是一個代理(proxy)問題:預(yù)測某一病人在未來12個月內(nèi)的死亡幾率,根據(jù)預(yù)測結(jié)果作出關(guān)于接受姑息治療的建議。這樣姑息治療團隊就可以根據(jù)病人的EHR數(shù)據(jù)作出客觀的建議,幫助抵消主治醫(yī)師潛在的診斷偏差,而且還不需要人工對每個病例都進行審查。當前用于識別此類病人的工具存在一些局限,我們會在下一部分進行討論。

相關(guān)工作

準確的預(yù)后信息對病人、護理人員和臨床醫(yī)生都是有價值的。一些研究表明,臨床醫(yī)生一般都對自己的絕癥患者的預(yù)后效果估計過于樂觀。這里有幾種解決方案試圖使病人的預(yù)后信息更加的客觀和智能化。在這些解決方案中,許多都是根據(jù)患者的臨床和生物學兩種參數(shù)來構(gòu)建模型產(chǎn)生一個評分,而這個評分可以用來估計預(yù)期的存活率。

用于姑息治療的預(yù)后方法

姑息性表現(xiàn)尺度是針對姑息治療,修改了人體機能狀態(tài)量表(KPS)而發(fā)展得來的。它是基于例如活動度、活動能力、自理能力、食物和體液攝入量、意識狀態(tài)等可觀察因子來計算的。姑息性預(yù)后評分(PPS)也是為姑息治療制定的一種評分機制,它的重點是放在晚期癌癥患者身上。PPS是基于以下的變量來進行多元回歸分析計算:臨床預(yù)測生存期(CPS)、卡氏評分(KPS)、厭食、呼吸困難、總的白細胞數(shù)量(WBC)和淋巴細胞百分比。而另一種與PPS在相同時期內(nèi)發(fā)展起來的指標,姑息預(yù)后指數(shù)(PPI),也是基于性能狀態(tài)指標進行了一個多元回歸分析來得到了評分,例如口服攝入、水腫的基礎(chǔ)得分、休息時呼吸困難和譫妄(急性腦綜合征)。這些分數(shù)難以在大規(guī)模上進行實現(xiàn),因為它們涉及面對面的臨床評估,涉及臨床醫(yī)生對生存者狀態(tài)的預(yù)測。此外,這些評分的目的是在姑息治療中來使用,而那時病人已經(jīng)處于疾病晚期階段,不能達到更早鑒別他們疾病狀態(tài)的目的。

加護病房ICU的預(yù)后方法

也有一些常常用在ICU上的預(yù)后評分模型。APACHE-II評分(急性生理、年齡、慢性健康評測)是用來預(yù)測ICU中危重住院患者住院死亡危險程度的。這種模型最近已經(jīng)被APACHE-III改進了,主要是細化了評分項,采用了ICU入院之前的諸如主要的內(nèi)科和外科疾病分類、急性生理異常、年齡、原有功能的局限性、主要的合并癥和治療地點等因素。另一個在ICU中常用的評分系統(tǒng)是簡化急性生理評分,也稱作SAPS II,它是根據(jù)病人的生理和潛在疾病這些變量來計算的。當病人已經(jīng)轉(zhuǎn)入ICU時,雖然這些評分對治療組來說是有用的,但是他們在確定患者是否是有長期死亡風險的方面是有限的。但是這些評分仍然能夠讓他們對其目標和價值進行有意義的討論,以便他們確定另一種護理方式。

早期識別的預(yù)后方法

為了盡早發(fā)現(xiàn)絕癥患者,為其制定一個臨終的計劃并確保其有意義,現(xiàn)在這方面已經(jīng)有許多的研究和開發(fā)的方法了。CriSTAL (適當?shù)恼疹櫤宛B(yǎng)護篩選標準)就是一種用來確定老年患者是否接近生命的盡頭,以及量化在住院時的死亡風險或出院后不久的死亡風險的方法。為了識別瀕死的病人,CriSTAL 提供了一個采用十八個預(yù)測因子的檢查表。

CARING是一種用于識別可以從姑息治療中獲益患者的方法。其目標是使用六個簡單的標準來判斷1年內(nèi)有死亡風險的患者。PREDICT也是基于六項預(yù)后指標,這些指標是從CARING中提煉出來的。該模型根據(jù)976名患者的情況建立的。

Intermountain死亡風險評分是一種基于實驗室常規(guī)檢查的針對所有原因進行死亡率預(yù)測的評分機制。該模型提供了30天、1年和5年死亡風險的評分,它的訓練集包含71921人的數(shù)據(jù),測試集包含47458人的數(shù)據(jù)。

大數(shù)據(jù)時代的預(yù)后信息

醫(yī)療保健系統(tǒng)中電子病歷系統(tǒng)的普及和針對高維數(shù)據(jù)方面機器學習技術(shù)的進步,為我們在醫(yī)療上作出貢獻提供了一個特殊的機會,特別是在疾病預(yù)后方面。上面描述的所有方法,以及我們所回顧的方法,至少有以下缺陷之一。他們都是采用了規(guī)模較小的數(shù)據(jù)集(僅限于特定的研究或一群人),或用太少的變量(故意使模型簡單化,或是為了避免過擬合),或模型太簡單而不能捕捉人類健康的復雜性和微妙之處,或者局限于某些亞群體(根據(jù)疾病類型,年齡等)。而我們在這篇工作中解決了這些限制。

方法

姑息治療團隊在很大程度上不清楚疾病的類型、階段和嚴重程度(病人是否被送入加護病房進行治療)以及病人的年齡等要素,我們從他們的角度探討了如何預(yù)測死亡率的問題。我們采用一種由數(shù)據(jù)驅(qū)動的方法,構(gòu)建了一個考慮每位病人EHR(長時間內(nèi)的病例)的深度學習模型,并且確保分析不會局限于任何亞群體或類同的群體。我們要解決的問題是識別需要接受姑息治療的病人,為了是這一問題便于處理,我們使用了下面這個代理(proxy)問題陳述:

給定某一病人和日期,使用該病人上一年的EHR數(shù)據(jù),預(yù)測其在自該日期起的12個月之內(nèi)的死亡率。

我們將這個問題看作為一個二分類問題,然后通過構(gòu)建深度學習監(jiān)督模型來解決。我們的目標不只是構(gòu)建出可以很好地解決上述問題的模型,我們還希望探討該模型在解決以下這個子問題(即:預(yù)測住院病人的死亡率)時的表現(xiàn)。因為姑息治療工作者往往更容易介入住院病人的治療。

為監(jiān)督學習構(gòu)建數(shù)據(jù)集

我們將已登記死亡日期的病人作為positive實例,將其他病人作為negative實例。然后,我們將病人的預(yù)期死亡時間作為分界點,將健康檔案上的時間線劃分為虛擬未來(virtual future)和過去事件。我們利用每位病人在虛擬過去(virtual past)的數(shù)據(jù)來預(yù)測他們在未來3-12個月內(nèi)的死亡幾率。注意:在定義預(yù)測日期時,必須避免違反常識性的限制條件(見下文),不然的話標簽就會無效。我們只針對可以在滿足這些約束情況的前提下找到預(yù)測日期的病人。

Positive實例:positive實例的限制條件的確定基于這一理論基礎(chǔ):在死亡之前的3-12個月內(nèi)被推薦接受姑息治療的病人最能從中獲益。我們認為在病人死亡前的3個月內(nèi)對其進行死亡幾率預(yù)測為時太晚,因為病人在接受姑息治療前需要一定的籌備時間;這一時間超過12個月也不可行,因為預(yù)測病人在很長時間范圍內(nèi)的死亡幾率非常困難。更重要的是,姑息治療介入?yún)f(xié)助是有限的,最好主要用于滿足較為迫切的需求。

Positive實例的預(yù)測日期必須滿足以下限制條件:

  • 預(yù)測日期必須為記錄在案的問診日期。
  • 預(yù)測日期必須至少比病人死亡日期早 3 個月(否則死亡日期會太靠近預(yù)測日期)。
  • 預(yù)測日期最多只能比病人死亡日期早 12 個月(否則死亡日期會離預(yù)測日期太遠)。
  • 預(yù)測日期必須比首次問診日期至少晚 12 個月(否則病人就沒有足夠的歷史數(shù)據(jù)來作為預(yù)測的依據(jù))。
  • 預(yù)測對象最好為住院病人,前提是他們必須滿足上述條件(因為相較于其他類型的病人,住院病人更愿意接受姑息治療建議)
  • 預(yù)測日期必須早于滿足上述限制條件的其他所有候選日期。

negative 案例:對于negative案例(未記錄死亡日期的病人),必須確保案例中的病人在自預(yù)測日期起的 12 個月內(nèi)沒有死亡。我們選擇的預(yù)測日期必須滿足以下所有條件:

  • 預(yù)測日期必須為記錄在案的問診日期。
  • 預(yù)測日期必須至少比最后一次接觸病人的日期早 12 個月(以避免發(fā)生拍攝 EHR 快照后死亡日期不明確的情況)。
  • 預(yù)測日期必須至少比首次問診日期晚 12 個月(否則無法獲得足夠的歷史數(shù)據(jù))。
  • 預(yù)測對象最好為住院病人(優(yōu)先于其他類型的病人),前提是他們滿足上述限制條件(作為 positive 實例的對照組)
  • 預(yù)測日期必須早于滿足上述限制條件的其他所有可能候選日期。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

圖 1. 以病人存活圖表示右刪失長度

  • 縱坐標:病人比例;橫坐標:天數(shù)
  • 紅線:死亡病人(死亡前存活的天數(shù))
  • 綠線:存活病人(確認存活時間)
  • 黑色虛線:分割線
  • 藍色虛線:最少存活時間

住院病人(admitted patients):預(yù)測日期與住院日期相對應(yīng)的病人為住院病人,其余病人為非住院病人。(注意:非住院病人治療歷史中可能還有其他記錄在案的住院經(jīng)歷)。對住院病人的預(yù)測日期進行再調(diào)整: 將住院后的第二天作為預(yù)測日期。這樣做的理論根據(jù)是:在住院后的24小時內(nèi),醫(yī)院通常會用最新的數(shù)據(jù)(初步檢測數(shù)據(jù)、診斷數(shù)據(jù)等)對病人記錄進行更新,住院后的第二天更適合作為預(yù)測日期。注意:住院病人是本試驗所有病人的一個子集(而不是一個單獨的數(shù)據(jù)集)。positive實例和negative實例都對預(yù)測日期后收集的所有數(shù)據(jù)進行審核。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

表1:病人人數(shù)的劃分

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

圖2.? 預(yù)測時病人的年齡

特征提取

我們將每位病人的預(yù)測日期之前的12個月作為觀察期。在每位病人的觀察期內(nèi),我們使用ICD9(國際疾病分類第9修訂版)診斷和計費編碼、《當代操作術(shù)語集》(Current Procedural Terminology,CPT)操作編碼、RxNorm處方編碼以及觀察期內(nèi)的醫(yī)患接觸來生成特征。

我們按照以下方法生成特征。為了捕獲數(shù)據(jù)的縱向性質(zhì),我們將每位病人的觀察期劃分為4個觀察階段,表III顯示了這四個階段與預(yù)測日期(PD)的對比,階段1最靠近預(yù)測日期,階段4離預(yù)測日期最遠。我們對各觀察階段分配不均勻的時間長度,目的是為了讓模型更多關(guān)注靠近預(yù)測日期的數(shù)據(jù)。在每個病人的各觀察階段中,我們記錄了每個編碼類別中的每個編碼出現(xiàn)的次數(shù)(開處方、計費等)。我們將這些編碼出現(xiàn)的次數(shù)作為一個單獨的特征。

我們還考慮了病人的人口統(tǒng)計數(shù)據(jù)(年齡、性別、種族、民族)以及觀察期內(nèi)各編碼類別的匯總數(shù)據(jù)(如下所示):

  • 類別內(nèi)特殊編碼出現(xiàn)次數(shù)。
  • 類別內(nèi)編碼出現(xiàn)的總次數(shù)。
  • 在任一天所分配的編碼的最大數(shù)量。
  • 在任一天所分配的編碼的最小數(shù)量(非零)。
  • 一天內(nèi)分配的編碼的數(shù)量范圍。
  • 一天內(nèi)分配的編碼的數(shù)量均值。
  • 一天內(nèi)分配的編碼的數(shù)量方差。

我們將所有這些特征(各觀察階段中編碼出現(xiàn)的次數(shù),觀察期內(nèi)各類別的匯總數(shù)據(jù),以及人口數(shù)據(jù))連接起來形成特征集。在特征集中,我們?nèi)コ辉?00或少于100位的病人群體中出現(xiàn)的特征。最后得出的特征集共有13654條特征。在這些特征中,每位病人平均有74個非零特征值(標準差為62),最多有892個特征值??偺卣骶仃嚨南∈柚荡蠹s為99.5%。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

圖3.?在測試集數(shù)據(jù)上模型輸出概率的可靠性曲線(標定線)

  • 縱軸:positive實例的比例;橫軸:預(yù)測值均值
  • 虛線:校準線
  • 藍線:所有病人(0.042)

算法和訓練

我們的模型是由一個輸入層(13654個維度)、18個隱藏層(每層 512 個維度)和一個標量輸出層構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)(DNN)。我們在輸出層應(yīng)用邏輯損失函數(shù)(logistic loss function),在模型每層上都應(yīng)用縮放指數(shù)線性單元(Scaled Exponential Linear Unit ,SeLU)。我們使用 Adam optimizer?和大小為128個樣本的 mini-batch?對模型進行了優(yōu)化。然后,我們對每250 個mini-batch迭代提取中間體模型snapshot(Intermediate model snapshots),選擇在驗證集上表現(xiàn)最好的snapshot作為最終模型。我們發(fā)現(xiàn)沒有必要進行明確的正則化操作。通過對各種網(wǎng)絡(luò)深度(從2到32)和激活函數(shù)(tanh、ReLU和SeLU)進行廣泛的超參數(shù)搜索,我們得到了最終的網(wǎng)絡(luò)架構(gòu)。

評估

由于數(shù)據(jù)是不均衡的,將準確度作為評價指標是不可行的。在不均衡問題中ROC曲線有時可能會有誤導作用。因此,我們使用平均準確度(AP)分數(shù)作為評價指標,也稱為模型選擇AUPRC曲線( Area Under Precision-Recall Curve )。

結(jié)論

在本節(jié)中,我們將根據(jù)在驗證集上獲得最好AP分數(shù)選擇的模型,來給出在測試集上獲得的技術(shù)評估結(jié)果。我們觀察到模型根據(jù)0.042的Brier score進行了合理的校正(如圖3所示)。在我們感興趣的高閾值的規(guī)則下,該模型在估計概率方面是一個比較保守(顯得信心不足)的模型,但是這應(yīng)該不會有什么壞的影響。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

圖4是插值精度召回曲線( Interpolated Precision-Recall curve)

  • 水平虛線表示0.9的精度水平。
  • 垂直虛線表示曲線達到0.9精度時的召回率。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

圖5是模型在測試集上表現(xiàn)情況的受試者工作特性曲線(ROC)

插值精度召回曲線如圖4所示。該模型的AP評分為0.69(入院病人為0.65)。早期召回這個結(jié)果是可取的,因此可以認為在精確為0.9時召回是一個度量指標。該模型在0.9的精度上實現(xiàn)了召回率為0.34(入院病人的召回率達到0.32即可)。受試者工作特性曲線如圖5所示。該模型實現(xiàn)了0.93的正確率(0.87即可判定是患者)。ROC和精密召回圖都顯示出,該模型顯示出強烈的早期召回行為。

定性分析

值得一提的是,預(yù)測死亡率是確定能從姑息治療中獲益病人的一個代理(proxy)問題。為了評估模型在原始問題上的性能,我們檢驗了高輸出概率的假陽性患者情況。我們注意到,雖然這樣的患者并沒有在他們的預(yù)測日期12個月內(nèi)死亡,但是他們經(jīng)常被診斷為疾病晚期和/或需要高標準的醫(yī)療服務(wù)。這在第五節(jié)所示的陽性和假陽性例子中可以看到。

在達到精度為0.9的患者中,姑息治療小組對其中50個隨機選擇的患者進行進行了圖表檢查,發(fā)現(xiàn)所有這些人在其預(yù)測日期內(nèi)都適合轉(zhuǎn)診,即使他們存活了一年多。這表明,在解決代理(proxy)問題方面,死亡率預(yù)測是一個合理的(和易處理的)選擇。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

隨機陽性患者高概率評分的預(yù)測解釋。表格僅顯示導致概率的下降的因素。

吳恩達團隊最新成果:用深度學習來改善臨終關(guān)懷服務(wù)

隨機陽性患者高概率評分的預(yù)測解釋。表格僅顯示導致概率的下降的因素。

 

論文地址:https://arxiv.org/abs/1711.06402

翻譯:AI科技大本營(ID:rgznai100);參與:尚巖奇,劉暢

譯文地址:微信公眾號“AI科技大本營”(ID:rgznai100)

本文由 @AI科技大本營 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自 unsplash

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 超贊

    來自廣東 回復