AI數(shù)據(jù)中心實戰(zhàn):量化標(biāo)簽的AI效能革命

0 評論 366 瀏覽 1 收藏 29 分鐘

AI數(shù)據(jù)中心不僅負(fù)責(zé)數(shù)據(jù)的處理和分析,還通過實時推理和低延遲響應(yīng),提升數(shù)據(jù)的應(yīng)用效果。本文將分享在AI數(shù)據(jù)中心設(shè)計中的實戰(zhàn)經(jīng)驗,探討如何通過量化標(biāo)簽提高數(shù)據(jù)流轉(zhuǎn)效率,增強模型的動態(tài)優(yōu)化能力,推動企業(yè)在人工智能領(lǐng)域取得突破性進(jìn)展。

數(shù)據(jù)是AI的食糧,巧婦也會難為無米之炊。在通常的定義中,AI數(shù)據(jù)中心不僅承擔(dān)著數(shù)據(jù)處理與分析,模型訓(xùn)練與優(yōu)化,還能通過實時推理和低延遲響應(yīng),來進(jìn)行數(shù)據(jù)的應(yīng)用和版本控制。

而我也曾設(shè)計過AI產(chǎn)品的數(shù)據(jù)中心,只不過我的經(jīng)驗是圖像識別領(lǐng)域的,而且不是通用數(shù)據(jù),而是小樣本量的醫(yī)療圖像數(shù)據(jù),所以不一定適合所有的AI產(chǎn)品。不過希望也能通過分享給大家?guī)硪恍┪宜伎嫉慕嵌群驮O(shè)計的考量,如果這些能對大家有所啟發(fā)和思考,就請您不吝小手,「點贊收藏分享」這篇文章。

以下我將會從「數(shù)據(jù)中心的作用,數(shù)據(jù)中心的模塊,數(shù)據(jù)中心的主要數(shù)據(jù)流程,數(shù)據(jù)中心的用戶角色,達(dá)成的效果、注意的事項、遺憾和未達(dá)成的部分」七大板塊進(jìn)行闡述。

01 數(shù)據(jù)中心的作用

經(jīng)過我和數(shù)據(jù)中心的各類目標(biāo)用戶進(jìn)行討論和了解后,我大概理清了其中部分的思路。就是從使用環(huán)境、用戶角色、數(shù)據(jù)流程、應(yīng)用場景和使用需求著手。在通過1周多的時間,整理出一個大概的需求列表,并從中擴展放大,最后形成了下面的內(nèi)容,「數(shù)據(jù)中心的作用是什么?」

串聯(lián)數(shù)據(jù)使用流程

數(shù)據(jù)使用流程總體步驟其實并不多,不外乎就是「采集-標(biāo)記-訓(xùn)練-測試-反饋」。但一旦加入了不同的用戶角色和應(yīng)用場景后,就開始變得復(fù)雜了。我通過進(jìn)一步的梳理,得出了以下流程表

附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’

從上圖可看出「反饋」串聯(lián)著整個流程。另外,數(shù)據(jù)集又會因為場景,分別形成訓(xùn)練數(shù)據(jù)集、訓(xùn)練測試集、應(yīng)用測試集,又通過不同的反饋流程重新回到數(shù)據(jù)流程中。這樣就形成了數(shù)據(jù)中心的另外一層核心的作用。

提高數(shù)據(jù)的流轉(zhuǎn)效率

通過不停的“反饋”,數(shù)據(jù)的流轉(zhuǎn)效率和數(shù)據(jù)應(yīng)用范圍就會不斷增加和豐富。比如

  • 「協(xié)助算法研發(fā)團(tuán)隊對模型進(jìn)行更新與動態(tài)優(yōu)化」
  • 「增加數(shù)據(jù)多樣性與泛化能力」

通過不同的數(shù)據(jù)標(biāo)簽。比如,來源類標(biāo)簽、標(biāo)記類標(biāo)簽、訓(xùn)練類標(biāo)簽、測試類標(biāo)簽、反饋標(biāo)簽等等;數(shù)據(jù)標(biāo)簽可以反映出數(shù)據(jù)不同流程和階段中產(chǎn)生的主動性和被動性的標(biāo)記,然后將相同、相近、相反或不同類別標(biāo)簽的數(shù)據(jù)整合成集,就能在不同的使用和應(yīng)用場景中批量調(diào)用和記錄標(biāo)記了。

協(xié)助系統(tǒng)應(yīng)用的實時分析與決策支持

模型優(yōu)化和實時的數(shù)據(jù)協(xié)同,加上數(shù)據(jù)流程中不斷產(chǎn)生和變化的數(shù)據(jù)標(biāo)簽,再通過貫穿整個流程「反饋」,為數(shù)據(jù)增加一層新類型的標(biāo)簽,「量化標(biāo)簽」。你也可以理解成“閾值‘’權(quán)重‘等等,因為之前的標(biāo)簽大多都是有還是沒有,即0或者1,現(xiàn)在通過反饋分析,增加了量化標(biāo)簽后,數(shù)據(jù)就變得維度更復(fù)雜了。加上實時的數(shù)據(jù)協(xié)同,就可以給到整體流程更多更豐富的決策支持了。如果有興趣了解詳情,可以去查看我已發(fā)布的文章AI產(chǎn)品經(jīng)理的核心能力(一)[1]中有詳細(xì)的說明。

02 數(shù)據(jù)中心的模塊

根據(jù)上文「數(shù)據(jù)中心的作用」中的數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’,我原來是梳理出七大模塊,但由于我最后的實際方案把“數(shù)據(jù)庫安全”通過其它手段達(dá)成了,最后就沒有把該模塊列入進(jìn)去了。最終整理出六大模塊

  1. 「數(shù)據(jù)采集與導(dǎo)入」
  2. 「標(biāo)記分配與標(biāo)記操作」
  3. 「數(shù)據(jù)測試」
  4. 「測試標(biāo)準(zhǔn)」
  5. 「用戶權(quán)限」
  6. 「量化賦值」

其中,前面4個模塊分別對應(yīng)著不同節(jié)點的數(shù)據(jù)流程,最后兩個則是數(shù)據(jù)中心的管理員對各流程中的用戶角色權(quán)限進(jìn)行定義和管理,和涉及數(shù)據(jù)全流程的量化賦值模塊。

03 數(shù)據(jù)中心主要的數(shù)據(jù)流程

根據(jù)上面整理的六大模塊,我先將前面4個模塊分別用不同的數(shù)據(jù)流程來解釋各自模塊的作用和意義,章節(jié)最后我將補充全數(shù)據(jù)流程都參與的量化賦值流程。

1. 數(shù)據(jù)采集流程

這個主要的用戶角色是運維人員,因為我的產(chǎn)品應(yīng)用場景是醫(yī)療,所以需要將原始醫(yī)療數(shù)據(jù)進(jìn)行導(dǎo)入操作和批處理操作,具體流程如下

附圖2.數(shù)據(jù)采集流程圖

編輯數(shù)據(jù)來源就是將數(shù)據(jù)的采集時間、設(shè)備、機構(gòu)、操作用戶、數(shù)據(jù)類型等標(biāo)簽添加在數(shù)據(jù)中,為最原始的數(shù)據(jù)添加第一批的數(shù)據(jù)標(biāo)簽「來源標(biāo)簽」。

2. 標(biāo)記流程

這個主要的用戶角色是“標(biāo)記管理員”和“標(biāo)記用戶”,而且流程更像是工單系統(tǒng),所以我最后也是通過工單流程對其進(jìn)行梳理和設(shè)計的,具體流程如下:

附圖3.標(biāo)記流程圖

其中,如果遇上特殊情況,數(shù)據(jù)預(yù)處理和標(biāo)記操作部分,也會有其它用戶角色參與。比如,數(shù)據(jù)預(yù)處理流程的優(yōu)化和修改,醫(yī)學(xué)專家修改標(biāo)記操作流程和規(guī)范,還有提供標(biāo)記修正和金標(biāo)準(zhǔn)標(biāo)記。另外,重新指派是支線流程,不是主流程,而是標(biāo)記指派后,指派無法完成的情況下才會出現(xiàn)的支線流程。

3. 測試流程

這個流程其實包含了訓(xùn)練測試和應(yīng)用測試,但其實大體上分別不大,只是在環(huán)境和測試標(biāo)準(zhǔn)、測試數(shù)據(jù)集上有所區(qū)別,所以我就不將它們分開來講了,具體流程如下:

附圖4.測試流程圖

為了流程的簡潔,我將很多流程節(jié)點省略了很多支線流程和步驟,比如測試集的創(chuàng)建、編輯;模型的創(chuàng)建、算法參數(shù)的創(chuàng)建、編輯(參數(shù)的類型、類型是文本、數(shù)值還是選項),測試數(shù)據(jù)集的創(chuàng)建、編輯等等。還有數(shù)據(jù)查重這個,其實是因為這個數(shù)據(jù)中心是搭建在小樣本數(shù)據(jù)庫前提下的,為了提升數(shù)據(jù)的有效利用,訓(xùn)練數(shù)據(jù)有可能會和測試數(shù)據(jù)有所重合,因此特地增設(shè)此步驟來防止對測試結(jié)果的影響。

以上的都是根據(jù)數(shù)據(jù)流程來梳理的,下面的就是根據(jù)系統(tǒng)管理需要補充的流程。

4. 管理流程

這里面包括3個主要流程,**系統(tǒng)管理員流程、標(biāo)記管理員流程、算法管理員流程”

  1. 系統(tǒng)管理員:「創(chuàng)建(刪除)用戶 – 查看用戶 – 編輯用戶權(quán)限」
  2. 標(biāo)記管理員:「創(chuàng)建(編輯)‘標(biāo)記數(shù)據(jù)集’ – 選擇‘標(biāo)記數(shù)據(jù)集’ – 指派標(biāo)記用戶 – 查看標(biāo)記進(jìn)程 – 創(chuàng)建(編輯)標(biāo)記摘要 – 提交標(biāo)記數(shù)據(jù)」
  3. 算法管理員:「創(chuàng)建(編輯)算法模型 – 創(chuàng)建(編輯/禁用)算法參數(shù) – 創(chuàng)建(編輯/禁用)測試標(biāo)準(zhǔn)」

其中,系統(tǒng)管理員主要就是創(chuàng)建用戶和編輯用戶權(quán)限,比如標(biāo)記用戶和標(biāo)記管理員用戶的權(quán)限,一個是指派,另一個是接受指派并進(jìn)行標(biāo)記操作。算法管理員里其實是三個單獨的流程,主要是為測試流程里,提供模型、參數(shù)、測試標(biāo)準(zhǔn)等的各種選項和范圍,對標(biāo)簽進(jìn)行統(tǒng)一化和規(guī)則一致性管理,防止各團(tuán)隊中研發(fā)成員有各自的習(xí)慣和方式,造成標(biāo)簽混亂、重復(fù)和冗余。

5. 量化賦值流程

這個算是數(shù)據(jù)中心最核心的模塊和功能之一了,詳細(xì)說起來可以很復(fù)雜,但其實本質(zhì)就是通過不斷的數(shù)據(jù)反饋和用戶反饋,將其進(jìn)行分析后量化一個值賦予于數(shù)據(jù)之上,形成數(shù)據(jù)的量化標(biāo)簽(即閾值權(quán)重)。

在我已發(fā)布的文章AI產(chǎn)品經(jīng)理的核心能力(一)[1]中有詳細(xì)的說明。

附圖5.量化賦值流程圖

其中就如上文【附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’】里的反饋環(huán)節(jié),就可以通過流程流轉(zhuǎn)重新回到數(shù)據(jù)流程里的將近每個環(huán)節(jié),來對流程進(jìn)行優(yōu)化調(diào)整。

04 數(shù)據(jù)中心的用戶角色

經(jīng)過數(shù)據(jù)中心的主要流程梳理,我已經(jīng)能很好地洞見到,數(shù)據(jù)中心應(yīng)該具有的用戶角色,還有其在系統(tǒng)中的作用和需求目的?,F(xiàn)在我將根據(jù)不同的用戶角色,分別講講他們各自在系統(tǒng)中權(quán)限和操作內(nèi)容。

1. 運維用戶

這個角色權(quán)限比較簡單,但也很重要,因為這個角色是唯一一個能接觸到數(shù)據(jù)的實際物理承載體的,這個我將在后面的「注意事項」章節(jié)進(jìn)行說明,這里先按下不表。

  • 數(shù)據(jù)采集與數(shù)據(jù)導(dǎo)入
  • 數(shù)據(jù)來源標(biāo)簽管理
  • 轉(zhuǎn)處理數(shù)據(jù)
  • 生成待標(biāo)記數(shù)據(jù)集

2. 標(biāo)記管理員

這個角色主要就是為了管理“標(biāo)記流程”所建立的,數(shù)據(jù)在這里需要經(jīng)過指派和流轉(zhuǎn),最后進(jìn)入到核心數(shù)據(jù)庫中,讓‘訓(xùn)練測試’和‘應(yīng)用測試’等流程隨時調(diào)用。

  • 數(shù)據(jù)預(yù)處理
  • 標(biāo)記數(shù)據(jù)集管理
  • 標(biāo)記工單指派
  • 標(biāo)記摘要管理

數(shù)據(jù)預(yù)處理和標(biāo)記數(shù)據(jù)集管理部分,有可能會有算法研發(fā)團(tuán)隊成員加入?yún)f(xié)助完成,因此此角色有可能會與其它用戶角色權(quán)限疊加

3. 標(biāo)記用戶

這個角色主要就是接收‘標(biāo)記管理員’的工單指派,根據(jù)標(biāo)記摘要要求完成工單指派,即標(biāo)記數(shù)據(jù)集的標(biāo)記。

  • 標(biāo)記數(shù)據(jù)
  • 完成/返回工單

只要涉及到工單,不得不注意的就是工單的異常處理,這里也是一樣。一旦指派因意外無法按時或者按需完成時,返回工單就起到閉環(huán)管理的作用了;比如,因為其他標(biāo)注需求等級較高且無空余可指派任務(wù)空間時,讓已指派的標(biāo)記用戶退回未完成或者未開始的工單就尤為重要了。

4. 算法研發(fā)管理員

這個是屬于傾向管理標(biāo)簽的角色,通常是對模型、訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集、訓(xùn)練測試、應(yīng)用測試等等的標(biāo)簽進(jìn)行統(tǒng)一管理。避免數(shù)據(jù)標(biāo)簽沒有統(tǒng)一的規(guī)則而造成的混亂。

  • 創(chuàng)建/編輯算法模型
  • 創(chuàng)建/編輯/禁用算法參數(shù)
  • 創(chuàng)建/禁用測試標(biāo)準(zhǔn)參數(shù)

這里算法模型是允許進(jìn)行創(chuàng)建和編輯,但沒有給予刪除的權(quán)限,是因為模型有可能隨著研發(fā)和模型優(yōu)化,會有進(jìn)一步的變化,因此可以提供編輯權(quán)限,但由于模型涉及測試結(jié)果的展示,因此只允許編輯如算法模型名稱和摘要的權(quán)限,但不允許刪除;算法參數(shù)方面,可以允許參數(shù)有限度的編輯。比如增加參數(shù)選項里‘?dāng)?shù)據(jù)增強’可以從2個選項‘混合裁剪’、‘切除增強’增加到‘混合裁剪’、‘切除增強’、‘幾何翻轉(zhuǎn)’3個選項,但不允許刪除原來的選項,也不允許修改原選項。但可以禁用原來的選項,比如只保留一個選項,其余選項禁用。測試標(biāo)準(zhǔn)參數(shù)也允許創(chuàng)建和禁用,但不允許編輯。

算法參數(shù)和測試標(biāo)準(zhǔn)參數(shù)為什么不允許刪除,只允許禁用,而算法參數(shù)為什么只允許有程度的編輯,這個我將在后面的「注意事項」章節(jié)進(jìn)行說明,請留意。

5. 算法研發(fā)用戶

這個是使用數(shù)據(jù)中心最核心的用戶之一了。根據(jù)流程,用戶會進(jìn)行頻繁和循環(huán)的各類操作,而且都會占用系統(tǒng)大量的資源。所以必須通過流程合理對其操作和流程進(jìn)行簡化。

  • 創(chuàng)建/調(diào)用訓(xùn)練數(shù)據(jù)集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 創(chuàng)建/調(diào)用訓(xùn)練測試集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 調(diào)用模型和算法參數(shù)創(chuàng)建訓(xùn)練,包括創(chuàng)建(編輯/更新)訓(xùn)練摘要
  • 查看/對比訓(xùn)練測試結(jié)果
  • 查看/對比應(yīng)用測試結(jié)果

這里面最經(jīng)常使用的就是訓(xùn)練測試流程和查看對比測試結(jié)果了,這里能非常直觀地查看各類測試參數(shù)下的測試結(jié)果,還可以通過進(jìn)行橫向的測試結(jié)果對比,來對算法模型的優(yōu)化提供分析支持。創(chuàng)建和調(diào)用數(shù)據(jù)集更像是給整個數(shù)據(jù)集的數(shù)據(jù)都統(tǒng)一打上的一個數(shù)據(jù)標(biāo)簽,然后讓不同流程中的節(jié)點可以直接批量調(diào)用。

6. 量化標(biāo)簽用戶

數(shù)據(jù)中心里對數(shù)據(jù)進(jìn)行唯一完全自定義標(biāo)簽的用戶。根據(jù)流程,反饋信息可以通過標(biāo)簽的形式對數(shù)據(jù)增加多樣性維度與數(shù)據(jù)泛化能力,從而體現(xiàn)出數(shù)據(jù)間的價值差別,并與應(yīng)用場景、用戶體驗產(chǎn)生一定程度的相關(guān)性。

  • 創(chuàng)建/編輯/停用量化標(biāo)簽
  • 編輯/關(guān)聯(lián)/取消關(guān)聯(lián)測試標(biāo)準(zhǔn)參數(shù)

我在已發(fā)布的文章AI產(chǎn)品經(jīng)理的核心能力(一)[1]第一章節(jié)部分中有這么一個例子,在‘自動駕駛里的行人防碰撞剎停系統(tǒng)’中,針對測試對象‘真實的人類生物’、‘具有人類形象的3D實物’、‘包含人形象的平面實物’,三個選項中,不僅有識別正確(True Positive)、識別錯誤(False Positive)2個維度,還有‘未識別’的維度,還有識別錯誤的不同應(yīng)用場景維度。

比如同樣是識別錯誤,將

  • ‘具有人類形象的3D實物’識別為‘真實的人類生物’
  • ‘真實的人類生物’識別為‘具有人類形象的3D實物’
  • ‘包含人形象的平面實物’識別‘具有人類形象的3D實物’

這三種識別錯誤是不一樣的,前面2種錯誤不太影響應(yīng)用場景下的使用,第3種將帶來應(yīng)用場景中不好的用戶體驗,這時的測試對象(即測試數(shù)據(jù)本身)就具有不同測試價值和維度了,也就是原來的數(shù)據(jù)僅有0和1兩個維度,現(xiàn)在還有未檢出,即0、1、2,再通過用戶體驗給數(shù)據(jù)帶來的量化標(biāo)簽,很有可能就是0、1、2、0.5四個維度了。

比如:

‘具有人類形象的3D實物’識別出并正確值為2。

‘具有人類形象的3D實物’識別出但分類為‘真實的人類生物’值為1。

‘具有人類形象的3D實物’識別出但分類為‘包含人形象的平面實物’值為0.5。

‘具有人類形象的3D實物’未識別出值為0。

這樣,數(shù)據(jù)就突然有新的量化標(biāo)簽,并根據(jù)標(biāo)簽對測試進(jìn)行重新的分析和對比了。

看到這里,你應(yīng)該能明白數(shù)據(jù)中心的重要性和大概的作用了吧。

「那接下來我將對數(shù)據(jù)中心在實踐中達(dá)成的效果進(jìn)行簡略說明?!?/strong>

05 達(dá)成的效果

1.數(shù)據(jù)統(tǒng)一處理,流程和用戶角色規(guī)范了數(shù)據(jù)標(biāo)簽的使用

通過數(shù)據(jù)中心的建立,所有針對數(shù)據(jù)的操作,基本都可以通過數(shù)據(jù)中心達(dá)成,避免了數(shù)據(jù)的不規(guī)則不合理地使用,杜絕了數(shù)據(jù)丟失和操作不統(tǒng)一帶來的負(fù)面效應(yīng)。

2.促進(jìn)了模型更新與動態(tài)優(yōu)化、

數(shù)據(jù)流轉(zhuǎn)效率比之前提升超600%,迭代優(yōu)化模型周期也減少的近60%,同時還能實時部署更新,還能自動排期進(jìn)行計劃訓(xùn)練任務(wù)。

3.多模態(tài)數(shù)據(jù)融合與決策協(xié)同

這個是最驚喜的部分,由于涉及比較核心的數(shù)據(jù),所以不方便用真實的案例和頁面來展示,我就通過舉例來讓大家理解一下吧。先看一個測試結(jié)果的表

附圖6.測試結(jié)果表格

這個表其實沒有什么特別的,只是如果在數(shù)據(jù)中心里,每個測試參數(shù)的結(jié)果都可以鏈接到具體的數(shù)據(jù)列表上,并顯示參數(shù)值是如何得出的,而且哪些測試對象的檢出結(jié)果是如何都一一列出,是不是就有所不同了?

然后我再來一張測試結(jié)果的表,這次是不是就有所不同了

附圖7.測試結(jié)果對比表格

這里就可以通過數(shù)據(jù)中心的測試對比來進(jìn)行橫向的測試對比,那對于算法團(tuán)隊而言,要進(jìn)行模型測試對比就會更方便和直觀了。不僅如此,我還加入了一個詳情對比的功能細(xì)節(jié),就是如果通過測試參數(shù)查看具體的對比詳情時,比如準(zhǔn)確率的測試對比時,就會出現(xiàn)詳細(xì)的對比詳情,如類似下圖的對比表格

附圖8.準(zhǔn)確率詳情對比表格

如果查看精確率的詳細(xì)對比時,就會出現(xiàn)如類似下圖的對比表格

附圖9.精確率的對比表格

「OK,還有更勁爆的就是,每個單獨的數(shù)據(jù)上都會有各類的標(biāo)記標(biāo)簽、數(shù)據(jù)集標(biāo)簽、測試標(biāo)簽,就如上面示意圖上的表格項一樣,每一個參數(shù)都相當(dāng)于在數(shù)據(jù)上的標(biāo)簽,然后通過標(biāo)簽的流轉(zhuǎn),你可以隨意進(jìn)行鏈接流轉(zhuǎn)?!?/strong>比如下面的數(shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖中,紅色框選的部分

附圖10.數(shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖

試想一下,一個數(shù)據(jù)上有不同的數(shù)據(jù)標(biāo)簽,比如「標(biāo)記標(biāo)簽」(標(biāo)記類型、標(biāo)記對象、標(biāo)記歷史等等),「數(shù)據(jù)集標(biāo)簽」(關(guān)聯(lián)的數(shù)據(jù)集,不管是訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集),「測試標(biāo)簽」(關(guān)聯(lián)的訓(xùn)練和模型,測試參數(shù)及其結(jié)果等等)都可以通過標(biāo)簽進(jìn)行流轉(zhuǎn)查看,不僅對于算法研發(fā)的團(tuán)隊成員,還有數(shù)據(jù)流程中的標(biāo)記用戶,運維用戶都是極大地效率提升。

好了,說了那么多,看到這里的大家應(yīng)該對這個數(shù)據(jù)中心能達(dá)成什么效果更深入的了解了。那么我就進(jìn)行最后一章的內(nèi)容了。

06 注意事項

1. 測試記錄的生成規(guī)則

這里為什么需要特別注意呢?因為測試記錄涉及了很多標(biāo)簽,比如模型、數(shù)據(jù)集、測試參數(shù)、測試結(jié)果,如果每次查看都重新生成,會消耗太多的系統(tǒng)資源,但如果用快照的形式保存,那相應(yīng)的標(biāo)簽變化就體現(xiàn)不出來了。比如

測試記錄里的模型使用了現(xiàn)在已禁用的模型參數(shù),如果和新的不含已禁用參數(shù)模型的測試結(jié)果進(jìn)行對比時,就會出現(xiàn)參數(shù)不對齊的情況,影響測試結(jié)果的對比。

我最終的妥協(xié)辦法就是:

  1. 測試完成后生成快照(含模型、參數(shù)、數(shù)據(jù)集標(biāo)簽);
  2. 調(diào)用時校驗當(dāng)前參數(shù)與快照一致性;
  3. 不一致時自動觸發(fā)重新生成并覆蓋舊快照。

2. 標(biāo)簽的編輯權(quán)限

這里就是上文“數(shù)據(jù)中心的用戶角色”章節(jié)中“算法研發(fā)管理員”角色里提到的標(biāo)簽的編輯權(quán)限。為什么要對其進(jìn)行限制呢?因為,針對部分已創(chuàng)建和使用的標(biāo)簽,比如算法參數(shù),測試標(biāo)準(zhǔn)參數(shù)標(biāo)簽,數(shù)據(jù)集標(biāo)簽等等,所有涉及到測試記錄的標(biāo)簽,均只允許創(chuàng)建、調(diào)用;「但部分參數(shù)允許一定范圍的編輯,比如增加選項,擴大原先數(shù)值的選取范圍等等。」剩下的編輯就只能通過禁用的方式,依然可以讓系統(tǒng)調(diào)取,但不能提供刪除各種涉及測試記錄標(biāo)簽的權(quán)限。

3. 數(shù)據(jù)的安全

當(dāng)全公司最核心的資產(chǎn)都存放在一個地方時,安全往往都是「最重要、最重要、最重要」的。那如何保證數(shù)據(jù)的安全呢?我則從兩個地方出發(fā)考慮

「1.訪問限制和硬件隔離」

對所有用戶不提供任何的數(shù)據(jù)接口和網(wǎng)絡(luò)接口(運維用戶導(dǎo)入數(shù)據(jù)除外),均只提供操作鍵鼠和顯示器。數(shù)據(jù)中心離線部署,不對外聯(lián)網(wǎng),從物理層面上杜絕數(shù)據(jù)讀取拷貝和通過網(wǎng)絡(luò)向外發(fā)送的可能。

「2.數(shù)據(jù)備份和硬件設(shè)備冗余」

對數(shù)據(jù)中心數(shù)據(jù)進(jìn)行自動執(zhí)行計劃數(shù)據(jù)備份,并采用獨立磁盤冗余陣列分散存儲和保證數(shù)據(jù)冗余;執(zhí)行定期維護(hù)服務(wù)器和存儲設(shè)備的運維計劃,配置RAID或集群節(jié)點防止單點故障;搭建UPS防止斷電停電對系統(tǒng)和數(shù)據(jù)造成的致命威脅,同時使用多個HYCU備份控制器進(jìn)行數(shù)據(jù)保護(hù);

07 遺憾和未達(dá)成的部分

這里我就簡單講講,其實主要是時間和成本的問題,最終數(shù)據(jù)中心系統(tǒng)沒有做成和模型環(huán)境一致并可直接操作調(diào)用的聯(lián)動狀態(tài),即沒有辦法按照我設(shè)計的流程里那樣,直接調(diào)用算法模型,直接通過數(shù)據(jù)中心里的算法參數(shù)來運行模型訓(xùn)練。還是需要通過人為手動進(jìn)行操作,就像按方抓藥一樣,先制定好訓(xùn)練計劃并通過數(shù)據(jù)中心系統(tǒng)錄入信息,再通過手動操作運行模型訓(xùn)練,但訓(xùn)練后的測試結(jié)果是可以直接自動導(dǎo)入到數(shù)據(jù)中心里,自動生成測試結(jié)果的。雖然有點美中不足,但相對于之前,效率還是提升了非常大的。

另外一個的就是模型參數(shù)和測試參數(shù)部分,沒有提供自定義的批量操作功能,每次都需要用戶自行選擇勾選和設(shè)置,這是我沒考慮周全的地方。

08 結(jié)語

在醫(yī)療圖像識別場景下小樣本數(shù)據(jù)中心的設(shè)計與實踐里,我圍繞數(shù)據(jù)全生命周期管理展開,涵蓋數(shù)據(jù)采集、標(biāo)注、測試、反饋優(yōu)化等核心流程。并通過提出數(shù)據(jù)中心六大模塊(采集、標(biāo)記、測試、標(biāo)準(zhǔn)、權(quán)限、量化賦值),并詳細(xì)解釋了各模塊的交互邏輯與用戶角色分工(如運維、標(biāo)記管理員、算法研發(fā)團(tuán)隊等)。通過引入“量化標(biāo)簽”機制,數(shù)據(jù)維度從二元標(biāo)簽擴展為多級閾值權(quán)重,顯著提升模型泛化能力和決策支持效率。補充了一些簡單的案例展示了測試結(jié)果的多維度對比功能,是如何支持算法團(tuán)隊快速優(yōu)化模型,最終實現(xiàn)數(shù)據(jù)流轉(zhuǎn)效率提升600%、模型迭代周期縮短60%的顯著效果。遺憾在于未完全實現(xiàn)模型訓(xùn)練與數(shù)據(jù)中心的自動化聯(lián)動,但整體設(shè)計作為小樣本醫(yī)療AI系統(tǒng)的高效運行,我認(rèn)為應(yīng)該是提供了可復(fù)用的方法論的。

最后,希望這篇文章的內(nèi)容能讓各位有所啟發(fā)。

[1]AI產(chǎn)品經(jīng)理的核心能力(一)

作者:薰闕的產(chǎn)品思考 公眾號:薰闕的產(chǎn)品思考

本文由 @薰闕的產(chǎn)品思考 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!