【AI系統(tǒng)設計目標】揭秘AI系統(tǒng)設計的未來藍圖

0 評論 419 瀏覽 1 收藏 9 分鐘

在人工智能的宏偉藍圖中,AI系統(tǒng)的設計目標是構建一個強大、靈活且高效的框架,以支撐深度學習的復雜需求和挑戰(zhàn)。這不僅是技術的進步,更是對未來智能世界的一次大膽設想。讓我們揭開AI系統(tǒng)設計目標的神秘面紗,探索它們如何塑造我們的數(shù)字未來。

深度學習系統(tǒng)的設計目標可以總結為以下幾個部分。

一、高效編程語言、開發(fā)框架和工具鏈

設計更具表達能力和簡潔的神經網絡計算原語以及高級編程語言。讓用戶能夠提升 AI 應用程序的開發(fā)效率,屏蔽底層硬件計算的細節(jié),更靈活的原語支持。當前神經網絡模型除了特定領域模型的算子和流程可以復用(如大語言模型 Transformer 架構在自然語言處理 NLP 領域被廣泛作為基礎結構),其新結構新算子的設計與開發(fā)仍遵循試錯(Trial And Error)的方式進行。那么如何靈活表達新的計算算子,算子間的組合以及融合形式,屏蔽經典熟知的算子與基礎模型,是算法工程師所需要語言、庫與 AI 開發(fā)框架層所提供的功能支持。

更直觀的編輯、調試和實驗工具。讓用戶可以完整的進行神經網絡模型的開發(fā)、測試、調整診斷與修復和優(yōu)化程序,提升所開發(fā) AI 應用程序的性能與魯棒性。訓練過程不是一蹴而就,其中伴隨著損失函數(shù) LOSS 曲線不收斂、Loss 值出現(xiàn) NaN 無效值、內存溢出等算法問題與算法設計缺陷(Bug)。AI 工具鏈與 AI 系統(tǒng)本身如何在設計之初就考慮到這點,提供良好的可觀測性、可調試性、允許用戶注冊自定義擴展等支持,是需要工具鏈與 AI 系統(tǒng)的設計者,所需要在 AI 系統(tǒng)的設計之初就需要提上日程的,否則之后更多是縫縫補補造成不好的開發(fā)體驗與不能滿足的需求,對用戶來說就像使用一個黑盒且單片的工具。

支持 AI 生命周期中的各個環(huán)節(jié):數(shù)據(jù)處理、模型開發(fā)與訓練、模型壓縮與推理、安全和隱私保護等。不僅能構建 AI 模型,能夠支持全生命周期的 AI 程序開發(fā),并在 AI 系統(tǒng)內對全生命周期進行分析與優(yōu)化。當前的 AI 工程化場景,已經不是靈感一現(xiàn)和單一的優(yōu)化就能迅速取得領先優(yōu)勢,更多的是能否有完善的 AI 基礎設施,快速復現(xiàn)開源社區(qū)工作,批量驗證新的想法進行試錯,所以一套好的完善的全流程的生命周期管理能夠大幅度提升 AI 算法層面的生產力。

二、AI 任務系統(tǒng)級支持

除了對深度學習訓練與推理的支持,還能支持強化學習、自動化機器學習等新的訓練范式。例如,需要不斷和環(huán)境或模擬器交互以獲取新數(shù)據(jù)的強化學習方式,批量大規(guī)模提交搜索空間的自動化機器學習方式等,這些新的范式造成對之前單一支持單模型之外,在多模型層面,訓練與推理任務層面產生了新的系統(tǒng)抽象與資源,作業(yè)管理需求。

提供更強大和可擴展的計算能力

讓用戶的 AI 程序可擴展并部署于可以并行計算的節(jié)點或者集群,應對大數(shù)據(jù)和大模型的挑戰(zhàn)。因為當前 AI 模型不斷通過大模型,多模態(tài)大模型以產生更好的算法效果,促使 AI 系統(tǒng)需要支持更大的模型、更多模態(tài)的輸入。同時由于企業(yè) IT 基礎設施不斷完善,能夠不斷沉淀新的數(shù)據(jù),也會伴隨著大數(shù)據(jù)而衍生的問題。大模型與大數(shù)據(jù)促使存儲與計算層面的系統(tǒng),在摩爾定律失效的大背景下,迫切需要通過并行與分布式計算的方式,擴展算力與存儲的支持。

自動編譯優(yōu)化算法

1)對計算圖自動推導:盡可能的通過符號執(zhí)行或即時編譯 JIT 技術,獲取更多的計算圖信息,讓 AI 開發(fā)框架或者 AI 編譯器自動執(zhí)行定制化的計算優(yōu)化。

2)根據(jù)不同體系結構自動并行化:面對部署場景的多樣化體系結構,訓練階段異構硬件的趨勢,AI 開發(fā)框架讓用戶透明的進行任務配置和并行化,以期以最為優(yōu)化的方式在 AI 集群配置下,并行化、減少 I/O、充分利用通信帶寬,逼近硬件提供的極限性能上限。

云原生自動分布式化

自動分布式并行擴展到多個計算節(jié)點,面對云與集群場景,自動將 AI 任務擴展與部署,進而支撐分布式計算、彈性計算,讓用戶按需使用資源,也是云原生背景下,AI 系統(tǒng)所需要考慮和支持的。

3、探索并解決新挑戰(zhàn)下系統(tǒng)設計、實現(xiàn)和演化

在 AI 系統(tǒng)中會隨著 AI 算法的發(fā)展,出現(xiàn)了對動態(tài)圖、動態(tài) Shape 的支持需求,利用網絡模型結構的稀疏性進行壓縮加速優(yōu)化,為了提升訓練指標 TTA 實現(xiàn)混合精度訓練與部署,還有混合訓練范式(如強化學習)、多任務(如自動化機器學習)等特性支持。

提供在更大規(guī)模的企業(yè)級環(huán)境的部署需求。如云環(huán)境多租環(huán)境的訓練部署需求:面對多組織,多研究員和工程師共享集群資源,以及大家迫切使用 GPU 資源的日益增長的需求,如何提供公平、穩(wěn)定、高效的多租環(huán)境也是平臺系統(tǒng)需要首先考慮的。

跨平臺的推理部署需求。面對割裂的邊緣側硬件與軟件棧,如何讓模型訓練一次,跨平臺部署到不同軟硬件平臺,也是推理場景需要解決的重要問題。

最后是安全與隱私的需求。由于網絡模型類似傳統(tǒng)程序的功能,接受輸入,處理后產生輸出,但是相比傳統(tǒng)程序,其解釋性差,造成更容易產生安全問題,容易被攻擊。同時模型本身的重要信息為權重,我們也要注意模型本身的隱私保護。同時如果是企業(yè)級環(huán)境或公有云環(huán)境,會有更高的安全和隱私保護要求。

了解完 AI 系統(tǒng)設計的宏觀目標,可以進一步了解,當前在人工智能的大生態(tài)環(huán)境中 AI 系統(tǒng)的技術棧是如何構成的,整個技術棧中 AI 系統(tǒng)的各=處于哪個抽象層次,互相之間的關系是什么。

AI系統(tǒng)的設計目標不僅是技術規(guī)格的集合,它們是通往智能時代的關鍵路徑。隨著這些目標的實現(xiàn),我們將能夠解鎖新的創(chuàng)新潛力,提高生產效率,并保護我們的數(shù)據(jù)安全。這是一個充滿挑戰(zhàn)的旅程,但也是一次充滿希望的探險。讓我們期待AI系統(tǒng)如何繼續(xù)推動技術的邊界,為我們的世界帶來更加智能和互聯(lián)的未來。

本文由 @章魚AI小丸子 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!