馬斯克的Grok-1為什么不采用經(jīng)典Transformer?
前段時(shí)間,馬斯克開(kāi)源了大模型Grok-1的源代碼。開(kāi)源本來(lái)是件好事,不過(guò)很多人發(fā)現(xiàn)Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架構(gòu)。這是為什么呢?本文嘗試解答一下此類問(wèn)題。
2024年3月17日馬斯克旗下的xAI公司開(kāi)源了其大語(yǔ)言模型Grok-1的源代碼。Grok-1并未像GPT模型那樣,采用AI新貴Transformer,而是用了AI老兵Mixture-of-Expert(混合專家架構(gòu))。
經(jīng)典Transformer架構(gòu)作為當(dāng)前自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重要成就,雖然在許多任務(wù)上表現(xiàn)出色,但在某些情況下可能存在一些局限性。
Grok-1選擇采用混合專家(MoE)架構(gòu),源于對(duì)未來(lái)低成本超大參數(shù)模型架構(gòu)的訓(xùn)練研究和預(yù)期,以及對(duì)模型性能、效率和靈活性的追求。
在本文中,我們將探討Grok-1為何不采用經(jīng)典Transformer架構(gòu)的原因,以及采用MoE架構(gòu)的優(yōu)勢(shì)和潛在影響。
一、Grok-1詳情
1. Grok技術(shù)詳情
Grok-1和Grok-1.5能力評(píng)估表
根據(jù)Grok-1公開(kāi)的技術(shù)詳情如下:
(1)Parameters:314B。
這表示架構(gòu)的參數(shù)數(shù)量為3140億,即3140億的訓(xùn)練權(quán)重量,是目前發(fā)布的大語(yǔ)言模型中參數(shù)量最大的一種。
(2)Architecture:Mixture of 8 Experts (MoE)。
這指的是Grok-1采用了專家混合(MoE)架構(gòu),其中包含8個(gè)專家。MoE是一種架構(gòu),通過(guò)組合多個(gè)專家網(wǎng)絡(luò),以便可以選擇性地依賴于不同專家的輸出。
(3)Experts Utilization:2 experts used per token。
對(duì)于每個(gè)Token,架構(gòu)使用了2個(gè)專家,這意味著對(duì)每個(gè)輸入Token,架構(gòu)可以從2個(gè)專家的輸出中進(jìn)行選擇。
(4)Layers:64。
表示架構(gòu)由64個(gè)神經(jīng)網(wǎng)絡(luò)層組成,每一層都包含一組特定的向量矩陣和計(jì)算操作。
(5)Attention Heads:48 for queries,8 for keys/values。
說(shuō)明架構(gòu)依然采用了自注意力機(jī)制,注意力頭(Attention Heads)被分為兩部分:48個(gè)用于查詢(queries),8個(gè)用于鍵(keys)和值(values)。幫助架構(gòu)理解輸入序列中的不同部分之間的關(guān)系。
(6)Embedding Size:6144。
表示輸入Token映射到向量空間的維度大小是6144,即將每個(gè)輸入Token映射到6144維的向量空間中進(jìn)行處理。
(7)Tokenization:SentencePiece tokenizer with 131072 tokens。
架構(gòu)使用SentencePiece的Token生成器,共有131072個(gè)Token。Token生成器用于將文本輸入拆分為架構(gòu)可以理解的單詞或子詞單元。
SentencePiece tokenizer是一種用于分詞和標(biāo)記化文本數(shù)據(jù)的工具,它可以將文本數(shù)據(jù)拆分成模型可理解的單詞或子詞單元。SentencePiece tokenizer可以將文本分割為子詞級(jí)別,這有助于處理未登錄詞(Out-Of-Vocabulary,OOV)和稀有單詞,提高模型對(duì)于復(fù)雜語(yǔ)言的適應(yīng)能力;可以根據(jù)數(shù)據(jù)動(dòng)態(tài)調(diào)整詞匯量,從而更好地適應(yīng)不同任務(wù)和數(shù)據(jù)集的需求;其采用內(nèi)存和時(shí)間效率較高的算法,可以快速有效地處理大規(guī)模文本數(shù)據(jù);可以應(yīng)用于多種語(yǔ)言的文本處理,幫助跨語(yǔ)言任務(wù)的進(jìn)行。
(8)Additional Features
Rotary embeddings (RoPE):架構(gòu)使用旋轉(zhuǎn)嵌入作為一種特征表示方法。
RoPE是一種用于神經(jīng)網(wǎng)絡(luò)中表示特征的技術(shù),旨在改善對(duì)序列數(shù)據(jù)的處理。
RoPE的設(shè)計(jì)靈感來(lái)自于對(duì)旋轉(zhuǎn)變換(rotation transformations)的研究,這種變換可以幫助減少神經(jīng)網(wǎng)絡(luò)中的對(duì)稱性,并提高網(wǎng)絡(luò)的表示能力。
RoPE的關(guān)鍵思想是將輸入特征映射到一個(gè)高維球面(high-dimensional sphere)上,并通過(guò)在球面上進(jìn)行旋轉(zhuǎn)操作來(lái)引入額外的非線性表示。這種球面上的旋轉(zhuǎn)變換可以幫助網(wǎng)絡(luò)學(xué)習(xí)更為復(fù)雜和多樣化的特征表示,從而提高其性能和泛化能力。
Supports activation sharding and 8-bit quantization:架構(gòu)支持激活分片(Activation Sharding)和8位量化(8-bit Quantization),這些技術(shù)有助于提高模型的效率和性能。其中激活分片是一種優(yōu)化技術(shù),用于減少內(nèi)存消耗和加速推斷過(guò)程。在神經(jīng)網(wǎng)絡(luò)中,激活是指在每層網(wǎng)絡(luò)中經(jīng)過(guò)激活函數(shù)后的輸出。激活分片將這些激活數(shù)據(jù)劃分成多個(gè)片段(shards),每個(gè)片段表示神經(jīng)網(wǎng)絡(luò)中的一部分激活輸出。通過(guò)將激活數(shù)據(jù)分割成片段,模型可以更有效地管理內(nèi)存,并且可以在多個(gè)計(jì)算設(shè)備上并行處理不同的激活片段,從而提高推斷速度和效率。
8位量化(8-bit Quantization)是一種減少模型計(jì)算和存儲(chǔ)需求的技術(shù),通過(guò)將浮點(diǎn)數(shù)參數(shù)和激活值轉(zhuǎn)換為更小的整數(shù)或定點(diǎn)數(shù)。8位量化特指將參數(shù)或激活值表示為8位(即一個(gè)字節(jié))整數(shù)。8位量化可以顯著減少模型在內(nèi)存和計(jì)算資源上的需求,從而加快推斷速度并減少功耗,適用于一些資源受限的場(chǎng)景,如移動(dòng)設(shè)備或邊緣計(jì)算環(huán)境。
(9)Maximum Sequence Length (context):8192 tokens。
架構(gòu)支持的最大上下文序列長(zhǎng)度為8192個(gè)Token,這限制了架構(gòu)能夠處理的輸入序列的最大長(zhǎng)度。
2. 科學(xué)計(jì)算庫(kù)
Grok-1采用了JAX作為科學(xué)計(jì)算庫(kù)。
JAX(即可加速的Python)是一種用于高性能數(shù)值計(jì)算和深度學(xué)習(xí)的開(kāi)源軟件庫(kù)。它由Google開(kāi)發(fā),旨在提供NumPy的功能,同時(shí)允許用戶利用GPU、TPU等加速器進(jìn)行高效的計(jì)算。
JAX的設(shè)計(jì)理念包括函數(shù)式編程、自動(dòng)微分和XLA編譯器等方面的理念,使其成為許多深度學(xué)習(xí)框架的底層支持,如Flax、Haiku等。JAX不僅支持自動(dòng)微分,還能將用戶編寫的Python代碼轉(zhuǎn)換成高效的XLA內(nèi)核,從而提高計(jì)算性能。這使得JAX成為深度學(xué)習(xí)研究和實(shí)踐中的重要工具之一。
3. 開(kāi)發(fā)語(yǔ)言
Grok-1采用Rust作為編程語(yǔ)言。
Rust是一種由Mozilla開(kāi)發(fā)的系統(tǒng)級(jí)編程語(yǔ)言。它被設(shè)計(jì)為一種安全、并發(fā)和實(shí)用的編程語(yǔ)言,旨在解決C和C++等語(yǔ)言存在的安全性和內(nèi)存安全性問(wèn)題。Rust具有許多特性,包括零成本抽象、模式匹配、類型系統(tǒng)、所有權(quán)系統(tǒng)等,這些特性使得編寫高性能和安全的軟件變得更加容易。Rust還支持并發(fā)編程,提供了輕量級(jí)的線程和通道機(jī)制,使得編寫并發(fā)程序更加簡(jiǎn)單和安全。由于其性能和安全性方面的優(yōu)勢(shì),Rust在諸如系統(tǒng)編程、嵌入式開(kāi)發(fā)、網(wǎng)絡(luò)服務(wù)等領(lǐng)域得到了廣泛的應(yīng)用。
Rust是一種注重安全、并發(fā)和性能的系統(tǒng)編程語(yǔ)言。它旨在幫助開(kāi)發(fā)者構(gòu)建高效、可靠的軟件,而不犧牲速度或低級(jí)控制。這使得Rust在系統(tǒng)編程、網(wǎng)絡(luò)服務(wù)、并發(fā)應(yīng)用、嵌入式設(shè)備等領(lǐng)域越來(lái)越受歡迎。許多公司和項(xiàng)目已經(jīng)采用Rust來(lái)提高其軟件的性能和安全性,包括Mozilla、Dropbox、Cloudflare等。美國(guó)政府內(nèi)部的一些機(jī)構(gòu)和項(xiàng)目開(kāi)始探索和采用Rust,特別是那些關(guān)注軟件安全和性能的部門。例如,美國(guó)國(guó)家安全局(NSA)發(fā)布的一份報(bào)告中推薦使用內(nèi)存安全語(yǔ)言,如Rust,來(lái)增強(qiáng)軟件開(kāi)發(fā)的安全性。
4. 訓(xùn)練架構(gòu)
MoE—混合專家架構(gòu)(Mixture-of-Experts)是一種采用人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練架構(gòu),最早由Jacobs 等人在1991年的論文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一種將多個(gè)局部專家模型組合在一起的方法,以適應(yīng)不同的輸入數(shù)據(jù)分布,并且這些專家模型可以動(dòng)態(tài)地分配權(quán)重。
在MoE中,每個(gè)專家模型都被訓(xùn)練來(lái)解決特定的子問(wèn)題,而門控網(wǎng)絡(luò)則是用來(lái)決定在給定輸入情況下,哪個(gè)專家模型應(yīng)該負(fù)責(zé)給出最終的輸出。MoE出現(xiàn)時(shí)間較早,是為解決算法復(fù)雜性、提高訓(xùn)練性能、降低成本而提出的。與Transformer不同,其架構(gòu)充分利用GPU集群的分布式計(jì)算能力,將多任務(wù)執(zhí)行從算法結(jié)構(gòu)層面轉(zhuǎn)移到GPU集群層面從而降低算法的結(jié)構(gòu)復(fù)雜性。
經(jīng)典MoE示意圖
Mixture-of-Experts架構(gòu)的主要組成部分:
- 專家模型(Expert Models):每個(gè)專家模型是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),它們被設(shè)計(jì)用于解決特定的子問(wèn)題或者在特定的輸入數(shù)據(jù)分布下表現(xiàn)良好。每個(gè)專家模型都接收輸入數(shù)據(jù),并且輸出對(duì)應(yīng)的預(yù)測(cè)結(jié)果。
- 門控網(wǎng)絡(luò)(Gating Network):門控網(wǎng)絡(luò)用于動(dòng)態(tài)地分配權(quán)重給各個(gè)專家模型。給定輸入數(shù)據(jù),門控網(wǎng)絡(luò)計(jì)算每個(gè)專家模型對(duì)于當(dāng)前輸入數(shù)據(jù)的相關(guān)性或者重要性。這些權(quán)重通常是通過(guò)softmax函數(shù)歸一化得到的,以確保它們的總和為1。
- 混合操作(Mixture Operation):通過(guò)將每個(gè)專家模型的輸出與門控網(wǎng)絡(luò)計(jì)算得到的權(quán)重相乘并相加,可以得到最終的輸出。每個(gè)專家模型的輸出都被乘以對(duì)應(yīng)的權(quán)重,然后再相加,以產(chǎn)生最終的輸出。
- 訓(xùn)練策略:MoE架構(gòu)通常使用端到端的反向傳播算法進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中,專家模型和門控網(wǎng)絡(luò)的參數(shù)都會(huì)被調(diào)整,以最小化模型在訓(xùn)練數(shù)據(jù)上的損失函數(shù)。門控網(wǎng)絡(luò)的訓(xùn)練目標(biāo)通常是最大化模型的整體性能,并且也可以通過(guò)額外的正則化策略來(lái)提高模型的泛化能力。
總體上,Mixture-of-Experts架構(gòu)通過(guò)將多個(gè)專家模型組合在一起,并且通過(guò)門控網(wǎng)絡(luò)動(dòng)態(tài)地分配權(quán)重,可以提高模型的靈活性和適應(yīng)性,從而在處理復(fù)雜的輸入數(shù)據(jù)分布時(shí)取得更好的性能表現(xiàn)。MoE架構(gòu)的專家可以是任何神經(jīng)網(wǎng)絡(luò),例如:多層感知器(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等。
MoE早在1991年就問(wèn)世,當(dāng)時(shí)的專家模型主要用知識(shí)庫(kù)和規(guī)則引擎。隨著NLP各類神經(jīng)網(wǎng)絡(luò)算法和架構(gòu)的演進(jìn),MoE架構(gòu)也隨之演進(jìn)。通過(guò)Grok-1的技術(shù)詳情不難看出Grok在MoE架構(gòu)中依然結(jié)合了Transformer,通過(guò)將MoE組件嵌入到Transformer的每個(gè)層中,以增強(qiáng)每個(gè)層的表達(dá)能力。
MoE+Transformer混合架構(gòu)示意圖
如右圖所示,在每個(gè)Transformer層中,可以將輸入分成多個(gè)子空間,并為每個(gè)子空間分配一個(gè)MoE組件。這些MoE組件將并行地處理各個(gè)子空間的信息,并產(chǎn)生相應(yīng)的輸出。然后,將這些輸出組合起來(lái),作為下一層Transformer的輸入。這樣,每個(gè)Transformer層都能夠從多個(gè)專家的信息中受益,并在整個(gè)模型中實(shí)現(xiàn)更強(qiáng)大的建模能力。每個(gè)MoE層都由作為“專家”的獨(dú)立前饋神經(jīng)網(wǎng)絡(luò)集合組成,由一個(gè)門控函數(shù)使用softmax激活函數(shù)來(lái)對(duì)這些專家的概率分布進(jìn)行建模。
每個(gè)MoE層(底部塊)與Transformer層(上部塊)交錯(cuò)。對(duì)于每個(gè)輸入Token,例如“roses”,門控模塊從多個(gè)專家模型中動(dòng)態(tài)選擇兩個(gè)最相關(guān)的專家,這由MoE層中的藍(lán)色網(wǎng)格表示。然后,這兩位專家模型輸出的加權(quán)平均值將被傳遞到上層Transformer層。對(duì)于輸入序列中的下一個(gè)Token,將選擇兩個(gè)不同的專家系統(tǒng)。
二、為什么不用經(jīng)典Transformer?
1. 支持超大規(guī)模參數(shù)和復(fù)雜任務(wù)
MoE允許在不顯著增加計(jì)算成本的情況下擴(kuò)大模型容量。MoE架構(gòu)通過(guò)在處理輸入時(shí)僅激活與輸入相關(guān)的專家子集來(lái)實(shí)現(xiàn)這一點(diǎn)。換句話說(shuō),對(duì)于每個(gè)輸入,只有與其相關(guān)的一部分專家會(huì)被激活,而其他專家則處于非激活狀態(tài)。
由于只有部分專家被激活,MoE架構(gòu)實(shí)際上只需要處理一部分模型參數(shù),而不是整個(gè)模型的參數(shù)。這使得模型的參數(shù)量得以增加,而實(shí)際的計(jì)算負(fù)載卻只增加了少量或不增加。換言之,盡管模型的容量增加了,但由于只有部分參數(shù)被激活,因此模型的計(jì)算成本并沒(méi)有顯著增加。
這種設(shè)計(jì)使得MoE架構(gòu)能夠更好地利用參數(shù),以應(yīng)對(duì)更復(fù)雜的任務(wù)和更大規(guī)模的數(shù)據(jù),而不會(huì)顯著增加計(jì)算成本。
2. 更好的計(jì)算效率和性能
MoE提高了計(jì)算效率,因?yàn)樗梢愿鶕?jù)輸入動(dòng)態(tài)激活模型的不同部分。這意味著對(duì)于每個(gè)輸入,只有一小部分專家會(huì)被計(jì)算,從而減少了不必要的計(jì)算并提高了處理速度。研究表明,MoE架構(gòu)在多個(gè)任務(wù)和基準(zhǔn)測(cè)試中提供了優(yōu)于經(jīng)典Transformer架構(gòu)的性能。通過(guò)合適的專家選擇和路由策略,MoE可以提供更豐富的數(shù)據(jù)表示和更精細(xì)的決策能力。
3. 靈活性和專業(yè)化考慮
在MoE架構(gòu)中,每個(gè)“專家”都可以學(xué)習(xí)并專門處理輸入空間的不同部分。這意味著在MoE架構(gòu)中,不同的專家被設(shè)計(jì)成負(fù)責(zé)處理輸入數(shù)據(jù)的不同方面或子空間,而不是一概而論地處理整個(gè)輸入。這種專業(yè)化的設(shè)計(jì)使得模型可以更靈活地適應(yīng)多樣化的數(shù)據(jù)特征和復(fù)雜的任務(wù)需求。
例如:假設(shè)一個(gè)MoE架構(gòu)用于自然語(yǔ)言處理任務(wù)。在這個(gè)模型中,可以有一個(gè)專家負(fù)責(zé)處理詞義的理解,另一個(gè)專家負(fù)責(zé)處理句法結(jié)構(gòu)的分析,還有另一個(gè)專家負(fù)責(zé)處理上下文信息的推理,等等。每個(gè)專家在訓(xùn)練過(guò)程中會(huì)學(xué)習(xí)到針對(duì)自己負(fù)責(zé)的那部分輸入數(shù)據(jù)的特定特征和模式,從而使得模型可以更好地理解和利用輸入數(shù)據(jù)的不同方面。
通過(guò)這種專業(yè)化的設(shè)計(jì),MoE架構(gòu)可以更好地適應(yīng)多樣化的數(shù)據(jù)特征和復(fù)雜的任務(wù)需求,從而提高了模型的靈活性和泛化能力。這也是MoE架構(gòu)在許多任務(wù)和基準(zhǔn)測(cè)試中表現(xiàn)出色的原因之一。
4. 擁有天然的可擴(kuò)展性和并行
MoE架構(gòu)的設(shè)計(jì)允許不同專家在不同的處理單元上獨(dú)立運(yùn)行。因?yàn)槊總€(gè)專家只處理輸入空間的一部分,所以它們之間沒(méi)有直接的依賴關(guān)系。這意味著每個(gè)專家可以在獨(dú)立的處理單元上并行地執(zhí)行,而無(wú)需等待其他專家的結(jié)果。這種天然的并行性使得MoE架構(gòu)可以在并行計(jì)算環(huán)境中高效地運(yùn)行。
由于MoE架構(gòu)可以并行地處理輸入數(shù)據(jù),因此它在擴(kuò)展到大型數(shù)據(jù)集和復(fù)雜任務(wù)時(shí)具有很強(qiáng)的能力。在處理大規(guī)模數(shù)據(jù)集時(shí),可以將數(shù)據(jù)分配給多個(gè)處理單元,每個(gè)處理單元負(fù)責(zé)獨(dú)立地處理一部分?jǐn)?shù)據(jù)。這樣不僅可以加快處理速度,還可以有效地利用計(jì)算資源。
MoE架構(gòu)的并行計(jì)算性質(zhì)使得它可以有效地利用計(jì)算資源,從而保持高效的資源利用率。通過(guò)在多個(gè)處理單元上并行地執(zhí)行專家網(wǎng)絡(luò),MoE架構(gòu)可以充分利用現(xiàn)代計(jì)算平臺(tái)的并行計(jì)算能力,實(shí)現(xiàn)高效的計(jì)算。
5. 節(jié)省成本和能耗
MoE架構(gòu)使用稀疏激活的專家混合架構(gòu)來(lái)擴(kuò)展模型容量,同時(shí)與密集變體相比,訓(xùn)練成本也大大降低。相關(guān)研究表明當(dāng)有1.2萬(wàn)億個(gè)參數(shù)MoE訓(xùn)練架構(gòu),參數(shù)量大約是GPT-3的7倍,但只消耗了訓(xùn)練GPT-3能耗的1/3,并且需要一半的計(jì)算觸發(fā)器來(lái)進(jìn)行推理,同時(shí)在29個(gè)NLP任務(wù)中仍然實(shí)現(xiàn)了更好的零次、一次和少次學(xué)習(xí)性能。
當(dāng)然,MoE也有一個(gè)問(wèn)題,就是靜態(tài)內(nèi)存占用大。盡管使用稀疏門控網(wǎng)絡(luò)可以降低計(jì)算成本,但參數(shù)總數(shù)會(huì)隨著專家數(shù)量的增加而線性或亞線性增加。增加專家的數(shù)量需要保留大量的硬件設(shè)備。因此,節(jié)省了動(dòng)態(tài)(已使用)功率,而不節(jié)省靜態(tài)(保留)功率。需要節(jié)能技術(shù)擁有在不使用時(shí)硬件設(shè)備時(shí),置于低功率狀態(tài)的能力,這樣有助于降低保留能耗。
三、最后
分治原理是貫穿應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)始終的一個(gè)具有廣泛適用性的原理。通過(guò)將復(fù)雜問(wèn)題分解為更簡(jiǎn)單的子問(wèn)題,并通過(guò)組合這些子問(wèn)題的解決方案,我們可以更有效地解決復(fù)雜問(wèn)題。
Grok-1采用Mixture-of-Experts(MoE)架構(gòu),也是出于類似的分治原理。
這種架構(gòu)使得低成本處理超大參數(shù)量的大型語(yǔ)言模型(LLM)訓(xùn)練成為可能,通過(guò)將模型劃分為多個(gè)專家,并對(duì)每個(gè)專家進(jìn)行獨(dú)立處理,最終將它們的輸出進(jìn)行組合,從而達(dá)到更高效和優(yōu)雅的算法結(jié)構(gòu)。
這種分治的方法為解決復(fù)雜的計(jì)算問(wèn)題提供了一種有效的方式,為未來(lái)的研究和應(yīng)用提供了新的思路和可能性。
參考文獻(xiàn)
- Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.
- Jordan M I, Jacobs R A. Hierarchical mixtures of experts and the EM algorithm[J]. Neural computation, 1994, 6(2): 181-214.
- Yuksel S E, Wilson J N, Gader P D. Twenty years of mixture of experts[J]. IEEE transactions on neural networks and learning systems, 2012, 23(8): 1177-1193.
- Eigen D, Ranzato M A, Sutskever I. Learning factored representations in a deep mixture of experts[J]. arXiv preprint arXiv:1312.4314, 2013.
- Masoudnia S, Ebrahimpour R. Mixture of experts: a literature survey[J]. Artificial Intelligence Review, 2014, 42: 275-293.
- Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
- Riquelme C, Puigcerver J, Mustafa B, et al. Scaling vision with sparse mixture of experts[J]. Advances in Neural Information Processing Systems, 2021, 34: 8583-8595.
- Zhou Y, Lei T, Liu H, et al. Mixture-of-experts with expert choice routing[J]. Advances in Neural Information Processing Systems, 2022, 35: 7103-7114.
- Du N, Huang Y, Dai A M, et al. Glam: Efficient scaling of language models with mixture-of-experts[C]//International Conference on Machine Learning. PMLR, 2022: 5547-5569.
- Rajbhandari S, Li C, Yao Z, et al. Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale[C]//International conference on machine learning. PMLR, 2022: 18332-18346.
專欄作家
黃銳,人人都是產(chǎn)品經(jīng)理專欄作家。高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師、資深產(chǎn)品經(jīng)理、多家大型互聯(lián)網(wǎng)公司顧問(wèn),金融機(jī)構(gòu)、高??妥芯繂T。主要關(guān)注新零售、工業(yè)互聯(lián)網(wǎng)、金融科技和區(qū)塊鏈行業(yè)應(yīng)用版塊,擅長(zhǎng)產(chǎn)品或系統(tǒng)整體性設(shè)計(jì)和規(guī)劃。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。