AI數(shù)據(jù)中心實(shí)戰(zhàn):量化標(biāo)簽的AI效能革命

0 評(píng)論 231 瀏覽 0 收藏 29 分鐘

本文深入探討了AI數(shù)據(jù)中心在醫(yī)療圖像識(shí)別領(lǐng)域的實(shí)戰(zhàn)應(yīng)用,特別是通過(guò)量化標(biāo)簽實(shí)現(xiàn)AI效能的革命性提升,展示了如何通過(guò)精細(xì)化的數(shù)據(jù)管理和模型優(yōu)化來(lái)顯著提高數(shù)據(jù)處理效率和AI模型的迭代速度。

數(shù)據(jù)是AI的食糧,巧婦也會(huì)難為無(wú)米之炊。在通常的定義中,AI數(shù)據(jù)中心不僅承擔(dān)著數(shù)據(jù)處理與分析,模型訓(xùn)練與優(yōu)化,還能通過(guò)實(shí)時(shí)推理和低延遲響應(yīng),來(lái)進(jìn)行數(shù)據(jù)的應(yīng)用和版本控制。

而我也曾設(shè)計(jì)過(guò)AI產(chǎn)品的數(shù)據(jù)中心,只不過(guò)我的經(jīng)驗(yàn)是圖像識(shí)別領(lǐng)域的,而且不是通用數(shù)據(jù),而是小樣本量的醫(yī)療圖像數(shù)據(jù),所以不一定適合所有的AI產(chǎn)品。不過(guò)希望也能通過(guò)分享給大家?guī)?lái)一些我思考的角度和設(shè)計(jì)的考量,如果這些能對(duì)大家有所啟發(fā)和思考,就請(qǐng)您不吝小手,「點(diǎn)贊收藏分享」這篇文章。

以下我將會(huì)從「數(shù)據(jù)中心的作用,數(shù)據(jù)中心的模塊,數(shù)據(jù)中心的主要數(shù)據(jù)流程,數(shù)據(jù)中心的用戶(hù)角色,達(dá)成的效果、注意的事項(xiàng)、遺憾和未達(dá)成的部分」七大板塊進(jìn)行闡述。

01 數(shù)據(jù)中心的作用

經(jīng)過(guò)我和數(shù)據(jù)中心的各類(lèi)目標(biāo)用戶(hù)進(jìn)行討論和了解后,我大概理清了其中部分的思路。就是從使用環(huán)境、用戶(hù)角色、數(shù)據(jù)流程、應(yīng)用場(chǎng)景和使用需求著手。在通過(guò)1周多的時(shí)間,整理出一個(gè)大概的需求列表,并從中擴(kuò)展放大,最后形成了下面的內(nèi)容,「數(shù)據(jù)中心的作用是什么?」

1.串聯(lián)數(shù)據(jù)使用流程

數(shù)據(jù)使用流程總體步驟其實(shí)并不多,不外乎就是「采集-標(biāo)記-訓(xùn)練-測(cè)試-反饋」。但一旦加入了不同的用戶(hù)角色和應(yīng)用場(chǎng)景后,就開(kāi)始變得復(fù)雜了。我通過(guò)進(jìn)一步的梳理,得出了以下流程表

附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’

從上圖可看出「反饋」串聯(lián)著整個(gè)流程。另外,數(shù)據(jù)集又會(huì)因?yàn)閳?chǎng)景,分別形成訓(xùn)練數(shù)據(jù)集、訓(xùn)練測(cè)試集、應(yīng)用測(cè)試集,又通過(guò)不同的反饋流程重新回到數(shù)據(jù)流程中。這樣就形成了數(shù)據(jù)中心的另外一層核心的作用。

2.提高數(shù)據(jù)的流轉(zhuǎn)效率

通過(guò)不停的“反饋”,數(shù)據(jù)的流轉(zhuǎn)效率和數(shù)據(jù)應(yīng)用范圍就會(huì)不斷增加和豐富。比如

  • 「協(xié)助算法研發(fā)團(tuán)隊(duì)對(duì)模型進(jìn)行更新與動(dòng)態(tài)優(yōu)化」
  • 「增加數(shù)據(jù)多樣性與泛化能力」

通過(guò)不同的數(shù)據(jù)標(biāo)簽。比如,來(lái)源類(lèi)標(biāo)簽、標(biāo)記類(lèi)標(biāo)簽、訓(xùn)練類(lèi)標(biāo)簽、測(cè)試類(lèi)標(biāo)簽、反饋標(biāo)簽等等;數(shù)據(jù)標(biāo)簽可以反映出數(shù)據(jù)不同流程和階段中產(chǎn)生的主動(dòng)性和被動(dòng)性的標(biāo)記,然后將相同、相近、相反或不同類(lèi)別標(biāo)簽的數(shù)據(jù)整合成集,就能在不同的使用和應(yīng)用場(chǎng)景中批量調(diào)用和記錄標(biāo)記了。

3.協(xié)助系統(tǒng)應(yīng)用的實(shí)時(shí)分析與決策支持

模型優(yōu)化和實(shí)時(shí)的數(shù)據(jù)協(xié)同,加上數(shù)據(jù)流程中不斷產(chǎn)生和變化的數(shù)據(jù)標(biāo)簽,再通過(guò)貫穿整個(gè)流程「反饋」,為數(shù)據(jù)增加一層新類(lèi)型的標(biāo)簽,「量化標(biāo)簽」。你也可以理解成“閾值‘’權(quán)重‘等等,因?yàn)橹暗臉?biāo)簽大多都是有還是沒(méi)有,即0或者1,現(xiàn)在通過(guò)反饋分析,增加了量化標(biāo)簽后,數(shù)據(jù)就變得維度更復(fù)雜了。加上實(shí)時(shí)的數(shù)據(jù)協(xié)同,就可以給到整體流程更多更豐富的決策支持了。如果有興趣了解詳情,可以去查看我已發(fā)布的文章《AI產(chǎn)品經(jīng)理的核心能力(一) 》[1]中有詳細(xì)的說(shuō)明。

02 數(shù)據(jù)中心的模塊

根據(jù)上文「數(shù)據(jù)中心的作用」中的數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’,我原來(lái)是梳理出七大模塊,但由于我最后的實(shí)際方案把“數(shù)據(jù)庫(kù)安全”通過(guò)其它手段達(dá)成了,最后就沒(méi)有把該模塊列入進(jìn)去了。最終整理出六大模塊

  1. 「數(shù)據(jù)采集與導(dǎo)入」
  2. 「標(biāo)記分配與標(biāo)記操作」
  3. 「數(shù)據(jù)測(cè)試」
  4. 「測(cè)試標(biāo)準(zhǔn)」
  5. 「用戶(hù)權(quán)限」
  6. 「量化賦值」

其中,前面4個(gè)模塊分別對(duì)應(yīng)著不同節(jié)點(diǎn)的數(shù)據(jù)流程,最后兩個(gè)則是數(shù)據(jù)中心的管理員對(duì)各流程中的用戶(hù)角色權(quán)限進(jìn)行定義和管理,和涉及數(shù)據(jù)全流程的量化賦值模塊。

03 數(shù)據(jù)中心主要的數(shù)據(jù)流程

根據(jù)上面整理的六大模塊,我先將前面4個(gè)模塊分別用不同的數(shù)據(jù)流程來(lái)解釋各自模塊的作用和意義,章節(jié)最后我將補(bǔ)充全數(shù)據(jù)流程都參與的量化賦值流程。

數(shù)據(jù)采集流程

這個(gè)主要的用戶(hù)角色是運(yùn)維人員,因?yàn)槲业漠a(chǎn)品應(yīng)用場(chǎng)景是醫(yī)療,所以需要將原始醫(yī)療數(shù)據(jù)進(jìn)行導(dǎo)入操作和批處理操作,具體流程如下

附圖2.數(shù)據(jù)采集流程圖

編輯數(shù)據(jù)來(lái)源就是將數(shù)據(jù)的采集時(shí)間、設(shè)備、機(jī)構(gòu)、操作用戶(hù)、數(shù)據(jù)類(lèi)型等標(biāo)簽添加在數(shù)據(jù)中,為最原始的數(shù)據(jù)添加第一批的數(shù)據(jù)標(biāo)簽「來(lái)源標(biāo)簽」。

標(biāo)記流程

這個(gè)主要的用戶(hù)角色是“標(biāo)記管理員”和“標(biāo)記用戶(hù)”,而且流程更像是工單系統(tǒng),所以我最后也是通過(guò)工單流程對(duì)其進(jìn)行梳理和設(shè)計(jì)的,具體流程如下:

附圖3.標(biāo)記流程圖

其中,如果遇上特殊情況,數(shù)據(jù)預(yù)處理和標(biāo)記操作部分,也會(huì)有其它用戶(hù)角色參與。比如,數(shù)據(jù)預(yù)處理流程的優(yōu)化和修改,醫(yī)學(xué)專(zhuān)家修改標(biāo)記操作流程和規(guī)范,還有提供標(biāo)記修正和金標(biāo)準(zhǔn)標(biāo)記。另外,重新指派是支線(xiàn)流程,不是主流程,而是標(biāo)記指派后,指派無(wú)法完成的情況下才會(huì)出現(xiàn)的支線(xiàn)流程。

測(cè)試流程

這個(gè)流程其實(shí)包含了訓(xùn)練測(cè)試和應(yīng)用測(cè)試,但其實(shí)大體上分別不大,只是在環(huán)境和測(cè)試標(biāo)準(zhǔn)、測(cè)試數(shù)據(jù)集上有所區(qū)別,所以我就不將它們分開(kāi)來(lái)講了,具體流程如下:

附圖4.測(cè)試流程圖

為了流程的簡(jiǎn)潔,我將很多流程節(jié)點(diǎn)省略了很多支線(xiàn)流程和步驟,比如測(cè)試集的創(chuàng)建、編輯;模型的創(chuàng)建、算法參數(shù)的創(chuàng)建、編輯(參數(shù)的類(lèi)型、類(lèi)型是文本、數(shù)值還是選項(xiàng)),測(cè)試數(shù)據(jù)集的創(chuàng)建、編輯等等。還有數(shù)據(jù)查重這個(gè),其實(shí)是因?yàn)檫@個(gè)數(shù)據(jù)中心是搭建在小樣本數(shù)據(jù)庫(kù)前提下的,為了提升數(shù)據(jù)的有效利用,訓(xùn)練數(shù)據(jù)有可能會(huì)和測(cè)試數(shù)據(jù)有所重合,因此特地增設(shè)此步驟來(lái)防止對(duì)測(cè)試結(jié)果的影響。

以上的都是根據(jù)數(shù)據(jù)流程來(lái)梳理的,下面的就是根據(jù)系統(tǒng)管理需要補(bǔ)充的流程。

管理流程

這里面包括3個(gè)主要流程,“系統(tǒng)管理員流程、標(biāo)記管理員流程、算法管理員流程”:

  1. 系統(tǒng)管理員:「創(chuàng)建(刪除)用戶(hù) – 查看用戶(hù) – 編輯用戶(hù)權(quán)限」
  2. 標(biāo)記管理員:「創(chuàng)建(編輯)‘標(biāo)記數(shù)據(jù)集’ – 選擇‘標(biāo)記數(shù)據(jù)集’ – 指派標(biāo)記用戶(hù) – 查看標(biāo)記進(jìn)程 – 創(chuàng)建(編輯)標(biāo)記摘要 – 提交標(biāo)記數(shù)據(jù)」
  3. 算法管理員:「創(chuàng)建(編輯)算法模型 – 創(chuàng)建(編輯/禁用)算法參數(shù) – 創(chuàng)建(編輯/禁用)測(cè)試標(biāo)準(zhǔn)」

其中,系統(tǒng)管理員主要就是創(chuàng)建用戶(hù)和編輯用戶(hù)權(quán)限,比如標(biāo)記用戶(hù)和標(biāo)記管理員用戶(hù)的權(quán)限,一個(gè)是指派,另一個(gè)是接受指派并進(jìn)行標(biāo)記操作。算法管理員里其實(shí)是三個(gè)單獨(dú)的流程,主要是為測(cè)試流程里,提供模型、參數(shù)、測(cè)試標(biāo)準(zhǔn)等的各種選項(xiàng)和范圍,對(duì)標(biāo)簽進(jìn)行統(tǒng)一化和規(guī)則一致性管理,防止各團(tuán)隊(duì)中研發(fā)成員有各自的習(xí)慣和方式,造成標(biāo)簽混亂、重復(fù)和冗余。

量化賦值流程

這個(gè)算是數(shù)據(jù)中心最核心的模塊和功能之一了,詳細(xì)說(shuō)起來(lái)可以很復(fù)雜,但其實(shí)本質(zhì)就是通過(guò)不斷的數(shù)據(jù)反饋和用戶(hù)反饋,將其進(jìn)行分析后量化一個(gè)值賦予于數(shù)據(jù)之上,形成數(shù)據(jù)的量化標(biāo)簽(即閾值權(quán)重)。

附圖5.量化賦值流程圖

其中就如上文【附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’】里的反饋環(huán)節(jié),就可以通過(guò)流程流轉(zhuǎn)重新回到數(shù)據(jù)流程里的將近每個(gè)環(huán)節(jié),來(lái)對(duì)流程進(jìn)行優(yōu)化調(diào)整。

04 數(shù)據(jù)中心的用戶(hù)角色

經(jīng)過(guò)數(shù)據(jù)中心的主要流程梳理,我已經(jīng)能很好地洞見(jiàn)到,數(shù)據(jù)中心應(yīng)該具有的用戶(hù)角色,還有其在系統(tǒng)中的作用和需求目的?,F(xiàn)在我將根據(jù)不同的用戶(hù)角色,分別講講他們各自在系統(tǒng)中權(quán)限和操作內(nèi)容。

1.運(yùn)維用戶(hù)

這個(gè)角色權(quán)限比較簡(jiǎn)單,但也很重要,因?yàn)檫@個(gè)角色是唯一一個(gè)能接觸到數(shù)據(jù)的實(shí)際物理承載體的,這個(gè)我將在后面的「注意事項(xiàng)」章節(jié)進(jìn)行說(shuō)明,這里先按下不表。

  • 數(shù)據(jù)采集與數(shù)據(jù)導(dǎo)入
  • 數(shù)據(jù)來(lái)源標(biāo)簽管理
  • 轉(zhuǎn)處理數(shù)據(jù)
  • 生成待標(biāo)記數(shù)據(jù)集

2.標(biāo)記管理員

這個(gè)角色主要就是為了管理“標(biāo)記流程”所建立的,數(shù)據(jù)在這里需要經(jīng)過(guò)指派和流轉(zhuǎn),最后進(jìn)入到核心數(shù)據(jù)庫(kù)中,讓‘訓(xùn)練測(cè)試’和‘應(yīng)用測(cè)試’等流程隨時(shí)調(diào)用。

  • 數(shù)據(jù)預(yù)處理
  • 標(biāo)記數(shù)據(jù)集管理
  • 標(biāo)記工單指派
  • 標(biāo)記摘要管理

數(shù)據(jù)預(yù)處理和標(biāo)記數(shù)據(jù)集管理部分,有可能會(huì)有算法研發(fā)團(tuán)隊(duì)成員加入?yún)f(xié)助完成,因此此角色有可能會(huì)與其它用戶(hù)角色權(quán)限疊加

3.標(biāo)記用戶(hù)

這個(gè)角色主要就是接收‘標(biāo)記管理員’的工單指派,根據(jù)標(biāo)記摘要要求完成工單指派,即標(biāo)記數(shù)據(jù)集的標(biāo)記。

  • 標(biāo)記數(shù)據(jù)
  • 完成/返回工單

只要涉及到工單,不得不注意的就是工單的異常處理,這里也是一樣。一旦指派因意外無(wú)法按時(shí)或者按需完成時(shí),返回工單就起到閉環(huán)管理的作用了;比如,因?yàn)槠渌麡?biāo)注需求等級(jí)較高且無(wú)空余可指派任務(wù)空間時(shí),讓已指派的標(biāo)記用戶(hù)退回未完成或者未開(kāi)始的工單就尤為重要了。

4.算法研發(fā)管理員

這個(gè)是屬于傾向管理標(biāo)簽的角色,通常是對(duì)模型、訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集、訓(xùn)練測(cè)試、應(yīng)用測(cè)試等等的標(biāo)簽進(jìn)行統(tǒng)一管理。避免數(shù)據(jù)標(biāo)簽沒(méi)有統(tǒng)一的規(guī)則而造成的混亂。

  • 創(chuàng)建/編輯算法模型
  • 創(chuàng)建/編輯/禁用算法參數(shù)
  • 創(chuàng)建/禁用測(cè)試標(biāo)準(zhǔn)參數(shù)

這里算法模型是允許進(jìn)行創(chuàng)建和編輯,但沒(méi)有給予刪除的權(quán)限,是因?yàn)槟P陀锌赡茈S著研發(fā)和模型優(yōu)化,會(huì)有進(jìn)一步的變化,因此可以提供編輯權(quán)限;但由于模型涉及測(cè)試結(jié)果的展示,因此只允許編輯如算法模型名稱(chēng)和摘要的權(quán)限,但不允許刪除。

算法參數(shù)方面,可以允許參數(shù)有限度的編輯。比如增加參數(shù)選項(xiàng)里‘?dāng)?shù)據(jù)增強(qiáng)’可以從2個(gè)選項(xiàng)‘混合裁剪’、‘切除增強(qiáng)’增加到‘混合裁剪’、‘切除增強(qiáng)’、‘幾何翻轉(zhuǎn)’3個(gè)選項(xiàng),但不允許刪除原來(lái)的選項(xiàng),也不允許修改原選項(xiàng)。但可以禁用原來(lái)的選項(xiàng),比如只保留一個(gè)選項(xiàng),其余選項(xiàng)禁用。測(cè)試標(biāo)準(zhǔn)參數(shù)也允許創(chuàng)建和禁用,但不允許編輯。

算法參數(shù)和測(cè)試標(biāo)準(zhǔn)參數(shù)為什么不允許刪除,只允許禁用,而算法參數(shù)為什么只允許有程度的編輯,這個(gè)我將在后面的「注意事項(xiàng)」章節(jié)進(jìn)行說(shuō)明,請(qǐng)留意。

5.算法研發(fā)用戶(hù)

這個(gè)是使用數(shù)據(jù)中心最核心的用戶(hù)之一了。根據(jù)流程,用戶(hù)會(huì)進(jìn)行頻繁和循環(huán)的各類(lèi)操作,而且都會(huì)占用系統(tǒng)大量的資源。所以必須通過(guò)流程合理對(duì)其操作和流程進(jìn)行簡(jiǎn)化。

  • 創(chuàng)建/調(diào)用訓(xùn)練數(shù)據(jù)集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 創(chuàng)建/調(diào)用訓(xùn)練測(cè)試集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 調(diào)用模型和算法參數(shù)創(chuàng)建訓(xùn)練,包括創(chuàng)建(編輯/更新)訓(xùn)練摘要
  • 查看/對(duì)比訓(xùn)練測(cè)試結(jié)果
  • 查看/對(duì)比應(yīng)用測(cè)試結(jié)果

這里面最經(jīng)常使用的就是訓(xùn)練測(cè)試流程和查看對(duì)比測(cè)試結(jié)果了,這里能非常直觀(guān)地查看各類(lèi)測(cè)試參數(shù)下的測(cè)試結(jié)果,還可以通過(guò)進(jìn)行橫向的測(cè)試結(jié)果對(duì)比,來(lái)對(duì)算法模型的優(yōu)化提供分析支持。創(chuàng)建和調(diào)用數(shù)據(jù)集更像是給整個(gè)數(shù)據(jù)集的數(shù)據(jù)都統(tǒng)一打上的一個(gè)數(shù)據(jù)標(biāo)簽,然后讓不同流程中的節(jié)點(diǎn)可以直接批量調(diào)用。

6.量化標(biāo)簽用戶(hù)

數(shù)據(jù)中心里對(duì)數(shù)據(jù)進(jìn)行唯一完全自定義標(biāo)簽的用戶(hù)。根據(jù)流程,反饋信息可以通過(guò)標(biāo)簽的形式對(duì)數(shù)據(jù)增加多樣性維度與數(shù)據(jù)泛化能力,從而體現(xiàn)出數(shù)據(jù)間的價(jià)值差別,并與應(yīng)用場(chǎng)景、用戶(hù)體驗(yàn)產(chǎn)生一定程度的相關(guān)性。

  • 創(chuàng)建/編輯/停用量化標(biāo)簽
  • 編輯/關(guān)聯(lián)/取消關(guān)聯(lián)測(cè)試標(biāo)準(zhǔn)參數(shù)

我在已發(fā)布的文章《AI產(chǎn)品經(jīng)理的核心能力(一)》[1]第一章節(jié)部分中有這么一個(gè)例子,在‘自動(dòng)駕駛里的行人防碰撞剎停系統(tǒng)’中,針對(duì)測(cè)試對(duì)象‘真實(shí)的人類(lèi)生物’、‘具有人類(lèi)形象的3D實(shí)物’、‘包含人形象的平面實(shí)物’,三個(gè)選項(xiàng)中,不僅有識(shí)別正確(True Positive)、識(shí)別錯(cuò)誤(False Positive)2個(gè)維度,還有‘未識(shí)別’的維度,還有識(shí)別錯(cuò)誤的不同應(yīng)用場(chǎng)景維度。

比如同樣是識(shí)別錯(cuò)誤,將

  1. ‘具有人類(lèi)形象的3D實(shí)物’識(shí)別為‘真實(shí)的人類(lèi)生物’
  2. ‘真實(shí)的人類(lèi)生物’識(shí)別為‘具有人類(lèi)形象的3D實(shí)物’
  3. ‘包含人形象的平面實(shí)物’識(shí)別‘具有人類(lèi)形象的3D實(shí)物’

這三種識(shí)別錯(cuò)誤是不一樣的,前面2種錯(cuò)誤不太影響應(yīng)用場(chǎng)景下的使用,第3種將帶來(lái)應(yīng)用場(chǎng)景中不好的用戶(hù)體驗(yàn),這時(shí)的測(cè)試對(duì)象(即測(cè)試數(shù)據(jù)本身)就具有不同測(cè)試價(jià)值和維度了,也就是原來(lái)的數(shù)據(jù)僅有0和1兩個(gè)維度,現(xiàn)在還有未檢出,即0、1、2,再通過(guò)用戶(hù)體驗(yàn)給數(shù)據(jù)帶來(lái)的量化標(biāo)簽,很有可能就是0、1、2、0.5四個(gè)維度了。

比如:

  • ‘具有人類(lèi)形象的3D實(shí)物’識(shí)別出并正確值為2。
  • ‘具有人類(lèi)形象的3D實(shí)物’識(shí)別出但分類(lèi)為‘真實(shí)的人類(lèi)生物’值為1。
  • ‘具有人類(lèi)形象的3D實(shí)物’識(shí)別出但分類(lèi)為‘包含人形象的平面實(shí)物’值為0.5。
  • ‘具有人類(lèi)形象的3D實(shí)物’未識(shí)別出值為0。

這樣,數(shù)據(jù)就突然有新的量化標(biāo)簽,并根據(jù)標(biāo)簽對(duì)測(cè)試進(jìn)行重新的分析和對(duì)比了。

看到這里,你應(yīng)該能明白數(shù)據(jù)中心的重要性和大概的作用了吧。

「那接下來(lái)我將對(duì)數(shù)據(jù)中心在實(shí)踐中達(dá)成的效果進(jìn)行簡(jiǎn)略說(shuō)明。」

05 達(dá)成的效果

1.數(shù)據(jù)統(tǒng)一處理,流程和用戶(hù)角色規(guī)范了數(shù)據(jù)標(biāo)簽的使用

通過(guò)數(shù)據(jù)中心的建立,所有針對(duì)數(shù)據(jù)的操作,基本都可以通過(guò)數(shù)據(jù)中心達(dá)成,避免了數(shù)據(jù)的不規(guī)則不合理地使用,杜絕了數(shù)據(jù)丟失和操作不統(tǒng)一帶來(lái)的負(fù)面效應(yīng)。

2.促進(jìn)了模型更新與動(dòng)態(tài)優(yōu)化

數(shù)據(jù)流轉(zhuǎn)效率比之前提升超600%,迭代優(yōu)化模型周期也減少的近60%,同時(shí)還能實(shí)時(shí)部署更新,還能自動(dòng)排期進(jìn)行計(jì)劃訓(xùn)練任務(wù)。

3.多模態(tài)數(shù)據(jù)融合與決策協(xié)同

這個(gè)是最驚喜的部分,由于涉及比較核心的數(shù)據(jù),所以不方便用真實(shí)的案例和頁(yè)面來(lái)展示,我就通過(guò)舉例來(lái)讓大家理解一下吧。先看一個(gè)測(cè)試結(jié)果的表

附圖6.測(cè)試結(jié)果表格

這個(gè)表其實(shí)沒(méi)有什么特別的,只是如果在數(shù)據(jù)中心里,每個(gè)測(cè)試參數(shù)的結(jié)果都可以鏈接到具體的數(shù)據(jù)列表上,并顯示參數(shù)值是如何得出的,而且哪些測(cè)試對(duì)象的檢出結(jié)果是如何都一一列出,是不是就有所不同了?

然后我再來(lái)一張測(cè)試結(jié)果的表,這次是不是就有所不同了

附圖7.測(cè)試結(jié)果對(duì)比表格

這里就可以通過(guò)數(shù)據(jù)中心的測(cè)試對(duì)比來(lái)進(jìn)行橫向的測(cè)試對(duì)比,那對(duì)于算法團(tuán)隊(duì)而言,要進(jìn)行模型測(cè)試對(duì)比就會(huì)更方便和直觀(guān)了。不僅如此,我還加入了一個(gè)詳情對(duì)比的功能細(xì)節(jié),就是如果通過(guò)測(cè)試參數(shù)查看具體的對(duì)比詳情時(shí),比如準(zhǔn)確率的測(cè)試對(duì)比時(shí),就會(huì)出現(xiàn)詳細(xì)的對(duì)比詳情,如類(lèi)似下圖的對(duì)比表格

附圖8.準(zhǔn)確率詳情對(duì)比表格

如果查看精確率的詳細(xì)對(duì)比時(shí),就會(huì)出現(xiàn)如類(lèi)似下圖的對(duì)比表格

附圖9.精確率的對(duì)比表格

「OK,還有更勁爆的就是,每個(gè)單獨(dú)的數(shù)據(jù)上都會(huì)有各類(lèi)的標(biāo)記標(biāo)簽、數(shù)據(jù)集標(biāo)簽、測(cè)試標(biāo)簽,就如上面示意圖上的表格項(xiàng)一樣,每一個(gè)參數(shù)都相當(dāng)于在數(shù)據(jù)上的標(biāo)簽,然后通過(guò)標(biāo)簽的流轉(zhuǎn),你可以隨意進(jìn)行鏈接流轉(zhuǎn)?!贡热缦旅娴臄?shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖中,紅色框選的部分

附圖10.數(shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖

試想一下,一個(gè)數(shù)據(jù)上有不同的數(shù)據(jù)標(biāo)簽,比如「標(biāo)記標(biāo)簽」(標(biāo)記類(lèi)型、標(biāo)記對(duì)象、標(biāo)記歷史等等),「數(shù)據(jù)集標(biāo)簽」(關(guān)聯(lián)的數(shù)據(jù)集,不管是訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集),「測(cè)試標(biāo)簽」(關(guān)聯(lián)的訓(xùn)練和模型,測(cè)試參數(shù)及其結(jié)果等等)都可以通過(guò)標(biāo)簽進(jìn)行流轉(zhuǎn)查看,不僅對(duì)于算法研發(fā)的團(tuán)隊(duì)成員,還有數(shù)據(jù)流程中的標(biāo)記用戶(hù),運(yùn)維用戶(hù)都是極大地效率提升。

好了,說(shuō)了那么多,看到這里的大家應(yīng)該對(duì)這個(gè)數(shù)據(jù)中心能達(dá)成什么效果更深入的了解了。那么我就進(jìn)行最后一章的內(nèi)容了。

06 注意事項(xiàng)

1.測(cè)試記錄的生成規(guī)則

這里為什么需要特別注意呢?因?yàn)闇y(cè)試記錄涉及了很多標(biāo)簽,比如模型、數(shù)據(jù)集、測(cè)試參數(shù)、測(cè)試結(jié)果,如果每次查看都重新生成,會(huì)消耗太多的系統(tǒng)資源,但如果用快照的形式保存,那相應(yīng)的標(biāo)簽變化就體現(xiàn)不出來(lái)了。比如

測(cè)試記錄里的模型使用了現(xiàn)在已禁用的模型參數(shù),如果和新的不含已禁用參數(shù)模型的測(cè)試結(jié)果進(jìn)行對(duì)比時(shí),就會(huì)出現(xiàn)參數(shù)不對(duì)齊的情況,影響測(cè)試結(jié)果的對(duì)比。

我最終的妥協(xié)辦法就是:

  • 測(cè)試完成后生成快照(含模型、參數(shù)、數(shù)據(jù)集標(biāo)簽);
  • 調(diào)用時(shí)校驗(yàn)當(dāng)前參數(shù)與快照一致性;
  • 不一致時(shí)自動(dòng)觸發(fā)重新生成并覆蓋舊快照。

2.標(biāo)簽的編輯權(quán)限

這里就是上文“數(shù)據(jù)中心的用戶(hù)角色”章節(jié)中“算法研發(fā)管理員”角色里提到的標(biāo)簽的編輯權(quán)限。為什么要對(duì)其進(jìn)行限制呢?因?yàn)?,針?duì)部分已創(chuàng)建和使用的標(biāo)簽,比如算法參數(shù),測(cè)試標(biāo)準(zhǔn)參數(shù)標(biāo)簽,數(shù)據(jù)集標(biāo)簽等等,所有涉及到測(cè)試記錄的標(biāo)簽,均只允許創(chuàng)建、調(diào)用;「但部分參數(shù)允許一定范圍的編輯,比如增加選項(xiàng),擴(kuò)大原先數(shù)值的選取范圍等等?!故O碌木庉嬀椭荒芡ㄟ^(guò)禁用的方式,依然可以讓系統(tǒng)調(diào)取,但不能提供刪除各種涉及測(cè)試記錄標(biāo)簽的權(quán)限。

3.數(shù)據(jù)的安全

當(dāng)全公司最核心的資產(chǎn)都存放在一個(gè)地方時(shí),安全往往都是「最重要、最重要、最重要」的。那如何保證數(shù)據(jù)的安全呢?我則從兩個(gè)地方出發(fā)考慮

1)「訪(fǎng)問(wèn)限制和硬件隔離」

對(duì)所有用戶(hù)不提供任何的數(shù)據(jù)接口和網(wǎng)絡(luò)接口(運(yùn)維用戶(hù)導(dǎo)入數(shù)據(jù)除外),均只提供操作鍵鼠和顯示器。數(shù)據(jù)中心離線(xiàn)部署,不對(duì)外聯(lián)網(wǎng),從物理層面上杜絕數(shù)據(jù)讀取拷貝和通過(guò)網(wǎng)絡(luò)向外發(fā)送的可能。

2)「數(shù)據(jù)備份和硬件設(shè)備冗余」

對(duì)數(shù)據(jù)中心數(shù)據(jù)進(jìn)行自動(dòng)執(zhí)行計(jì)劃數(shù)據(jù)備份,并采用獨(dú)立磁盤(pán)冗余陣列分散存儲(chǔ)和保證數(shù)據(jù)冗余;執(zhí)行定期維護(hù)服務(wù)器和存儲(chǔ)設(shè)備的運(yùn)維計(jì)劃,配置RAID或集群節(jié)點(diǎn)防止單點(diǎn)故障;搭建UPS防止斷電停電對(duì)系統(tǒng)和數(shù)據(jù)造成的致命威脅,同時(shí)使用多個(gè)HYCU備份控制器進(jìn)行數(shù)據(jù)保護(hù);

07 遺憾和未達(dá)成的部分

這里我就簡(jiǎn)單講講,其實(shí)主要是時(shí)間和成本的問(wèn)題,最終數(shù)據(jù)中心系統(tǒng)沒(méi)有做成和模型環(huán)境一致并可直接操作調(diào)用的聯(lián)動(dòng)狀態(tài)。即沒(méi)有辦法按照我設(shè)計(jì)的流程里那樣,直接調(diào)用算法模型,直接通過(guò)數(shù)據(jù)中心里的算法參數(shù)來(lái)運(yùn)行模型訓(xùn)練。還是需要通過(guò)人為手動(dòng)進(jìn)行操作,就像按方抓藥一樣,先制定好訓(xùn)練計(jì)劃并通過(guò)數(shù)據(jù)中心系統(tǒng)錄入信息,再通過(guò)手動(dòng)操作運(yùn)行模型訓(xùn)練,但訓(xùn)練后的測(cè)試結(jié)果是可以直接自動(dòng)導(dǎo)入到數(shù)據(jù)中心里,自動(dòng)生成測(cè)試結(jié)果的。

雖然有點(diǎn)美中不足,但相對(duì)于之前,效率還是提升了非常大的。

另外一個(gè)的就是模型參數(shù)和測(cè)試參數(shù)部分,沒(méi)有提供自定義的批量操作功能,每次都需要用戶(hù)自行選擇勾選和設(shè)置,這是我沒(méi)考慮周全的地方。

結(jié)語(yǔ)

在醫(yī)療圖像識(shí)別場(chǎng)景下小樣本數(shù)據(jù)中心的設(shè)計(jì)與實(shí)踐里,我圍繞數(shù)據(jù)全生命周期管理展開(kāi),涵蓋數(shù)據(jù)采集、標(biāo)注、測(cè)試、反饋優(yōu)化等核心流程。并通過(guò)提出數(shù)據(jù)中心六大模塊(采集、標(biāo)記、測(cè)試、標(biāo)準(zhǔn)、權(quán)限、量化賦值),并詳細(xì)解釋了各模塊的交互邏輯與用戶(hù)角色分工(如運(yùn)維、標(biāo)記管理員、算法研發(fā)團(tuán)隊(duì)等)。

通過(guò)引入“量化標(biāo)簽”機(jī)制,數(shù)據(jù)維度從二元標(biāo)簽擴(kuò)展為多級(jí)閾值權(quán)重,顯著提升模型泛化能力和決策支持效率。補(bǔ)充了一些簡(jiǎn)單的案例展示了測(cè)試結(jié)果的多維度對(duì)比功能,是如何支持算法團(tuán)隊(duì)快速優(yōu)化模型,最終實(shí)現(xiàn)數(shù)據(jù)流轉(zhuǎn)效率提升600%、模型迭代周期縮短60%的顯著效果。遺憾在于未完全實(shí)現(xiàn)模型訓(xùn)練與數(shù)據(jù)中心的自動(dòng)化聯(lián)動(dòng),但整體設(shè)計(jì)作為小樣本醫(yī)療AI系統(tǒng)的高效運(yùn)行,我認(rèn)為應(yīng)該是提供了可復(fù)用的方法論的。

本文由人人都是產(chǎn)品經(jīng)理作者【薰闕的產(chǎn)品思考】,微信公眾號(hào):【薰闕的產(chǎn)品思考】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!