久久99热这里只有精品23，在线观看黄色视频网站，欧美亚洲日韩三级在线，无码一级午夜福利区，人人超碰人人都爱超碰，又黄又爽免费国产视频，欧美亚洲国产aⅴ人妖，国产99re精彩视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

馬斯克的Grok-1為什么不采用經(jīng)典Transformer？

黃銳

2024-04-01

0 評(píng)論 1104 瀏覽 0 收藏

24 分鐘

前段時(shí)間，馬斯克開(kāi)源了大模型Grok-1的源代碼。開(kāi)源本來(lái)是件好事，不過(guò)很多人發(fā)現(xiàn)Grok-1采用的是Mixture-of-Expert，而不是大家熟悉的Transformer架構(gòu)。這是為什么呢？本文嘗試解答一下此類問(wèn)題。

2024年3月17日馬斯克旗下的xAI公司開(kāi)源了其大語(yǔ)言模型Grok-1的源代碼。Grok-1并未像GPT模型那樣，采用AI新貴Transformer，而是用了AI老兵Mixture-of-Expert（混合專家架構(gòu)）。

經(jīng)典Transformer架構(gòu)作為當(dāng)前自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重要成就，雖然在許多任務(wù)上表現(xiàn)出色，但在某些情況下可能存在一些局限性。

Grok-1選擇采用混合專家（MoE）架構(gòu)，源于對(duì)未來(lái)低成本超大參數(shù)模型架構(gòu)的訓(xùn)練研究和預(yù)期，以及對(duì)模型性能、效率和靈活性的追求。

在本文中，我們將探討Grok-1為何不采用經(jīng)典Transformer架構(gòu)的原因，以及采用MoE架構(gòu)的優(yōu)勢(shì)和潛在影響。

一、Grok-1詳情

1. Grok技術(shù)詳情

Grok-1和Grok-1.5能力評(píng)估表

根據(jù)Grok-1公開(kāi)的技術(shù)詳情如下：

（1）Parameters：314B。

這表示架構(gòu)的參數(shù)數(shù)量為3140億，即3140億的訓(xùn)練權(quán)重量，是目前發(fā)布的大語(yǔ)言模型中參數(shù)量最大的一種。

（2）Architecture：Mixture of 8 Experts (MoE)。

這指的是Grok-1采用了專家混合（MoE）架構(gòu)，其中包含8個(gè)專家。MoE是一種架構(gòu)，通過(guò)組合多個(gè)專家網(wǎng)絡(luò)，以便可以選擇性地依賴于不同專家的輸出。

（3）Experts Utilization：2 experts used per token。

對(duì)于每個(gè)Token，架構(gòu)使用了2個(gè)專家，這意味著對(duì)每個(gè)輸入Token，架構(gòu)可以從2個(gè)專家的輸出中進(jìn)行選擇。

（4）Layers：64。

表示架構(gòu)由64個(gè)神經(jīng)網(wǎng)絡(luò)層組成，每一層都包含一組特定的向量矩陣和計(jì)算操作。

（5）Attention Heads：48 for queries，8 for keys/values。

說(shuō)明架構(gòu)依然采用了自注意力機(jī)制，注意力頭（Attention Heads）被分為兩部分：48個(gè)用于查詢（queries），8個(gè)用于鍵（keys）和值（values）。幫助架構(gòu)理解輸入序列中的不同部分之間的關(guān)系。

（6）Embedding Size：6144。

表示輸入Token映射到向量空間的維度大小是6144，即將每個(gè)輸入Token映射到6144維的向量空間中進(jìn)行處理。

（7）Tokenization：SentencePiece tokenizer with 131072 tokens。

架構(gòu)使用SentencePiece的Token生成器，共有131072個(gè)Token。Token生成器用于將文本輸入拆分為架構(gòu)可以理解的單詞或子詞單元。

SentencePiece tokenizer是一種用于分詞和標(biāo)記化文本數(shù)據(jù)的工具，它可以將文本數(shù)據(jù)拆分成模型可理解的單詞或子詞單元。SentencePiece tokenizer可以將文本分割為子詞級(jí)別，這有助于處理未登錄詞（Out-Of-Vocabulary，OOV）和稀有單詞，提高模型對(duì)于復(fù)雜語(yǔ)言的適應(yīng)能力；可以根據(jù)數(shù)據(jù)動(dòng)態(tài)調(diào)整詞匯量，從而更好地適應(yīng)不同任務(wù)和數(shù)據(jù)集的需求；其采用內(nèi)存和時(shí)間效率較高的算法，可以快速有效地處理大規(guī)模文本數(shù)據(jù)；可以應(yīng)用于多種語(yǔ)言的文本處理，幫助跨語(yǔ)言任務(wù)的進(jìn)行。

（8）Additional Features

Rotary embeddings (RoPE)：架構(gòu)使用旋轉(zhuǎn)嵌入作為一種特征表示方法。

RoPE是一種用于神經(jīng)網(wǎng)絡(luò)中表示特征的技術(shù)，旨在改善對(duì)序列數(shù)據(jù)的處理。

RoPE的設(shè)計(jì)靈感來(lái)自于對(duì)旋轉(zhuǎn)變換（rotation transformations）的研究，這種變換可以幫助減少神經(jīng)網(wǎng)絡(luò)中的對(duì)稱性，并提高網(wǎng)絡(luò)的表示能力。

RoPE的關(guān)鍵思想是將輸入特征映射到一個(gè)高維球面（high-dimensional sphere）上，并通過(guò)在球面上進(jìn)行旋轉(zhuǎn)操作來(lái)引入額外的非線性表示。這種球面上的旋轉(zhuǎn)變換可以幫助網(wǎng)絡(luò)學(xué)習(xí)更為復(fù)雜和多樣化的特征表示，從而提高其性能和泛化能力。

Supports activation sharding and 8-bit quantization：架構(gòu)支持激活分片（Activation Sharding）和8位量化（8-bit Quantization），這些技術(shù)有助于提高模型的效率和性能。其中激活分片是一種優(yōu)化技術(shù)，用于減少內(nèi)存消耗和加速推斷過(guò)程。在神經(jīng)網(wǎng)絡(luò)中，激活是指在每層網(wǎng)絡(luò)中經(jīng)過(guò)激活函數(shù)后的輸出。激活分片將這些激活數(shù)據(jù)劃分成多個(gè)片段（shards），每個(gè)片段表示神經(jīng)網(wǎng)絡(luò)中的一部分激活輸出。通過(guò)將激活數(shù)據(jù)分割成片段，模型可以更有效地管理內(nèi)存，并且可以在多個(gè)計(jì)算設(shè)備上并行處理不同的激活片段，從而提高推斷速度和效率。

8位量化（8-bit Quantization）是一種減少模型計(jì)算和存儲(chǔ)需求的技術(shù)，通過(guò)將浮點(diǎn)數(shù)參數(shù)和激活值轉(zhuǎn)換為更小的整數(shù)或定點(diǎn)數(shù)。8位量化特指將參數(shù)或激活值表示為8位（即一個(gè)字節(jié)）整數(shù)。8位量化可以顯著減少模型在內(nèi)存和計(jì)算資源上的需求，從而加快推斷速度并減少功耗，適用于一些資源受限的場(chǎng)景，如移動(dòng)設(shè)備或邊緣計(jì)算環(huán)境。

（9）Maximum Sequence Length (context)：8192 tokens。

架構(gòu)支持的最大上下文序列長(zhǎng)度為8192個(gè)Token，這限制了架構(gòu)能夠處理的輸入序列的最大長(zhǎng)度。

2. 科學(xué)計(jì)算庫(kù)

Grok-1采用了JAX作為科學(xué)計(jì)算庫(kù)。

JAX（即可加速的Python）是一種用于高性能數(shù)值計(jì)算和深度學(xué)習(xí)的開(kāi)源軟件庫(kù)。它由Google開(kāi)發(fā)，旨在提供NumPy的功能，同時(shí)允許用戶利用GPU、TPU等加速器進(jìn)行高效的計(jì)算。

JAX的設(shè)計(jì)理念包括函數(shù)式編程、自動(dòng)微分和XLA編譯器等方面的理念，使其成為許多深度學(xué)習(xí)框架的底層支持，如Flax、Haiku等。JAX不僅支持自動(dòng)微分，還能將用戶編寫的Python代碼轉(zhuǎn)換成高效的XLA內(nèi)核，從而提高計(jì)算性能。這使得JAX成為深度學(xué)習(xí)研究和實(shí)踐中的重要工具之一。

3. 開(kāi)發(fā)語(yǔ)言

Grok-1采用Rust作為編程語(yǔ)言。

Rust是一種由Mozilla開(kāi)發(fā)的系統(tǒng)級(jí)編程語(yǔ)言。它被設(shè)計(jì)為一種安全、并發(fā)和實(shí)用的編程語(yǔ)言，旨在解決C和C++等語(yǔ)言存在的安全性和內(nèi)存安全性問(wèn)題。Rust具有許多特性，包括零成本抽象、模式匹配、類型系統(tǒng)、所有權(quán)系統(tǒng)等，這些特性使得編寫高性能和安全的軟件變得更加容易。Rust還支持并發(fā)編程，提供了輕量級(jí)的線程和通道機(jī)制，使得編寫并發(fā)程序更加簡(jiǎn)單和安全。由于其性能和安全性方面的優(yōu)勢(shì)，Rust在諸如系統(tǒng)編程、嵌入式開(kāi)發(fā)、網(wǎng)絡(luò)服務(wù)等領(lǐng)域得到了廣泛的應(yīng)用。

Rust是一種注重安全、并發(fā)和性能的系統(tǒng)編程語(yǔ)言。它旨在幫助開(kāi)發(fā)者構(gòu)建高效、可靠的軟件，而不犧牲速度或低級(jí)控制。這使得Rust在系統(tǒng)編程、網(wǎng)絡(luò)服務(wù)、并發(fā)應(yīng)用、嵌入式設(shè)備等領(lǐng)域越來(lái)越受歡迎。許多公司和項(xiàng)目已經(jīng)采用Rust來(lái)提高其軟件的性能和安全性，包括Mozilla、Dropbox、Cloudflare等。美國(guó)政府內(nèi)部的一些機(jī)構(gòu)和項(xiàng)目開(kāi)始探索和采用Rust，特別是那些關(guān)注軟件安全和性能的部門。例如，美國(guó)國(guó)家安全局（NSA）發(fā)布的一份報(bào)告中推薦使用內(nèi)存安全語(yǔ)言，如Rust，來(lái)增強(qiáng)軟件開(kāi)發(fā)的安全性。

4. 訓(xùn)練架構(gòu)

MoE—混合專家架構(gòu)（Mixture-of-Experts）是一種采用人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練架構(gòu)，最早由Jacobs 等人在1991年的論文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一種將多個(gè)局部專家模型組合在一起的方法，以適應(yīng)不同的輸入數(shù)據(jù)分布，并且這些專家模型可以動(dòng)態(tài)地分配權(quán)重。

在MoE中，每個(gè)專家模型都被訓(xùn)練來(lái)解決特定的子問(wèn)題，而門控網(wǎng)絡(luò)則是用來(lái)決定在給定輸入情況下，哪個(gè)專家模型應(yīng)該負(fù)責(zé)給出最終的輸出。MoE出現(xiàn)時(shí)間較早，是為解決算法復(fù)雜性、提高訓(xùn)練性能、降低成本而提出的。與Transformer不同，其架構(gòu)充分利用GPU集群的分布式計(jì)算能力，將多任務(wù)執(zhí)行從算法結(jié)構(gòu)層面轉(zhuǎn)移到GPU集群層面從而降低算法的結(jié)構(gòu)復(fù)雜性。

經(jīng)典MoE示意圖

Mixture-of-Experts架構(gòu)的主要組成部分：

專家模型（Expert Models）：每個(gè)專家模型是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，它們被設(shè)計(jì)用于解決特定的子問(wèn)題或者在特定的輸入數(shù)據(jù)分布下表現(xiàn)良好。每個(gè)專家模型都接收輸入數(shù)據(jù)，并且輸出對(duì)應(yīng)的預(yù)測(cè)結(jié)果。
門控網(wǎng)絡(luò)（Gating Network）：門控網(wǎng)絡(luò)用于動(dòng)態(tài)地分配權(quán)重給各個(gè)專家模型。給定輸入數(shù)據(jù)，門控網(wǎng)絡(luò)計(jì)算每個(gè)專家模型對(duì)于當(dāng)前輸入數(shù)據(jù)的相關(guān)性或者重要性。這些權(quán)重通常是通過(guò)softmax函數(shù)歸一化得到的，以確保它們的總和為1。
混合操作（Mixture Operation）：通過(guò)將每個(gè)專家模型的輸出與門控網(wǎng)絡(luò)計(jì)算得到的權(quán)重相乘并相加，可以得到最終的輸出。每個(gè)專家模型的輸出都被乘以對(duì)應(yīng)的權(quán)重，然后再相加，以產(chǎn)生最終的輸出。
訓(xùn)練策略：MoE架構(gòu)通常使用端到端的反向傳播算法進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中，專家模型和門控網(wǎng)絡(luò)的參數(shù)都會(huì)被調(diào)整，以最小化模型在訓(xùn)練數(shù)據(jù)上的損失函數(shù)。門控網(wǎng)絡(luò)的訓(xùn)練目標(biāo)通常是最大化模型的整體性能，并且也可以通過(guò)額外的正則化策略來(lái)提高模型的泛化能力。

總體上，Mixture-of-Experts架構(gòu)通過(guò)將多個(gè)專家模型組合在一起，并且通過(guò)門控網(wǎng)絡(luò)動(dòng)態(tài)地分配權(quán)重，可以提高模型的靈活性和適應(yīng)性，從而在處理復(fù)雜的輸入數(shù)據(jù)分布時(shí)取得更好的性能表現(xiàn)。MoE架構(gòu)的專家可以是任何神經(jīng)網(wǎng)絡(luò)，例如：多層感知器（MLP）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）等。

MoE早在1991年就問(wèn)世，當(dāng)時(shí)的專家模型主要用知識(shí)庫(kù)和規(guī)則引擎。隨著NLP各類神經(jīng)網(wǎng)絡(luò)算法和架構(gòu)的演進(jìn)，MoE架構(gòu)也隨之演進(jìn)。通過(guò)Grok-1的技術(shù)詳情不難看出Grok在MoE架構(gòu)中依然結(jié)合了Transformer，通過(guò)將MoE組件嵌入到Transformer的每個(gè)層中，以增強(qiáng)每個(gè)層的表達(dá)能力。

MoE+Transformer混合架構(gòu)示意圖

如右圖所示，在每個(gè)Transformer層中，可以將輸入分成多個(gè)子空間，并為每個(gè)子空間分配一個(gè)MoE組件。這些MoE組件將并行地處理各個(gè)子空間的信息，并產(chǎn)生相應(yīng)的輸出。然后，將這些輸出組合起來(lái)，作為下一層Transformer的輸入。這樣，每個(gè)Transformer層都能夠從多個(gè)專家的信息中受益，并在整個(gè)模型中實(shí)現(xiàn)更強(qiáng)大的建模能力。每個(gè)MoE層都由作為“專家”的獨(dú)立前饋神經(jīng)網(wǎng)絡(luò)集合組成，由一個(gè)門控函數(shù)使用softmax激活函數(shù)來(lái)對(duì)這些專家的概率分布進(jìn)行建模。

每個(gè)MoE層（底部塊）與Transformer層（上部塊）交錯(cuò)。對(duì)于每個(gè)輸入Token，例如“roses”，門控模塊從多個(gè)專家模型中動(dòng)態(tài)選擇兩個(gè)最相關(guān)的專家，這由MoE層中的藍(lán)色網(wǎng)格表示。然后，這兩位專家模型輸出的加權(quán)平均值將被傳遞到上層Transformer層。對(duì)于輸入序列中的下一個(gè)Token，將選擇兩個(gè)不同的專家系統(tǒng)。

二、為什么不用經(jīng)典Transformer？

1. 支持超大規(guī)模參數(shù)和復(fù)雜任務(wù)

MoE允許在不顯著增加計(jì)算成本的情況下擴(kuò)大模型容量。MoE架構(gòu)通過(guò)在處理輸入時(shí)僅激活與輸入相關(guān)的專家子集來(lái)實(shí)現(xiàn)這一點(diǎn)。換句話說(shuō)，對(duì)于每個(gè)輸入，只有與其相關(guān)的一部分專家會(huì)被激活，而其他專家則處于非激活狀態(tài)。

由于只有部分專家被激活，MoE架構(gòu)實(shí)際上只需要處理一部分模型參數(shù)，而不是整個(gè)模型的參數(shù)。這使得模型的參數(shù)量得以增加，而實(shí)際的計(jì)算負(fù)載卻只增加了少量或不增加。換言之，盡管模型的容量增加了，但由于只有部分參數(shù)被激活，因此模型的計(jì)算成本并沒(méi)有顯著增加。

這種設(shè)計(jì)使得MoE架構(gòu)能夠更好地利用參數(shù)，以應(yīng)對(duì)更復(fù)雜的任務(wù)和更大規(guī)模的數(shù)據(jù)，而不會(huì)顯著增加計(jì)算成本。

2. 更好的計(jì)算效率和性能

MoE提高了計(jì)算效率，因?yàn)樗梢愿鶕?jù)輸入動(dòng)態(tài)激活模型的不同部分。這意味著對(duì)于每個(gè)輸入，只有一小部分專家會(huì)被計(jì)算，從而減少了不必要的計(jì)算并提高了處理速度。研究表明，MoE架構(gòu)在多個(gè)任務(wù)和基準(zhǔn)測(cè)試中提供了優(yōu)于經(jīng)典Transformer架構(gòu)的性能。通過(guò)合適的專家選擇和路由策略，MoE可以提供更豐富的數(shù)據(jù)表示和更精細(xì)的決策能力。

3. 靈活性和專業(yè)化考慮

在MoE架構(gòu)中，每個(gè)“專家”都可以學(xué)習(xí)并專門處理輸入空間的不同部分。這意味著在MoE架構(gòu)中，不同的專家被設(shè)計(jì)成負(fù)責(zé)處理輸入數(shù)據(jù)的不同方面或子空間，而不是一概而論地處理整個(gè)輸入。這種專業(yè)化的設(shè)計(jì)使得模型可以更靈活地適應(yīng)多樣化的數(shù)據(jù)特征和復(fù)雜的任務(wù)需求。

例如：假設(shè)一個(gè)MoE架構(gòu)用于自然語(yǔ)言處理任務(wù)。在這個(gè)模型中，可以有一個(gè)專家負(fù)責(zé)處理詞義的理解，另一個(gè)專家負(fù)責(zé)處理句法結(jié)構(gòu)的分析，還有另一個(gè)專家負(fù)責(zé)處理上下文信息的推理，等等。每個(gè)專家在訓(xùn)練過(guò)程中會(huì)學(xué)習(xí)到針對(duì)自己負(fù)責(zé)的那部分輸入數(shù)據(jù)的特定特征和模式，從而使得模型可以更好地理解和利用輸入數(shù)據(jù)的不同方面。

通過(guò)這種專業(yè)化的設(shè)計(jì)，MoE架構(gòu)可以更好地適應(yīng)多樣化的數(shù)據(jù)特征和復(fù)雜的任務(wù)需求，從而提高了模型的靈活性和泛化能力。這也是MoE架構(gòu)在許多任務(wù)和基準(zhǔn)測(cè)試中表現(xiàn)出色的原因之一。

4. 擁有天然的可擴(kuò)展性和并行

MoE架構(gòu)的設(shè)計(jì)允許不同專家在不同的處理單元上獨(dú)立運(yùn)行。因?yàn)槊總€(gè)專家只處理輸入空間的一部分，所以它們之間沒(méi)有直接的依賴關(guān)系。這意味著每個(gè)專家可以在獨(dú)立的處理單元上并行地執(zhí)行，而無(wú)需等待其他專家的結(jié)果。這種天然的并行性使得MoE架構(gòu)可以在并行計(jì)算環(huán)境中高效地運(yùn)行。

由于MoE架構(gòu)可以并行地處理輸入數(shù)據(jù)，因此它在擴(kuò)展到大型數(shù)據(jù)集和復(fù)雜任務(wù)時(shí)具有很強(qiáng)的能力。在處理大規(guī)模數(shù)據(jù)集時(shí)，可以將數(shù)據(jù)分配給多個(gè)處理單元，每個(gè)處理單元負(fù)責(zé)獨(dú)立地處理一部分?jǐn)?shù)據(jù)。這樣不僅可以加快處理速度，還可以有效地利用計(jì)算資源。

MoE架構(gòu)的并行計(jì)算性質(zhì)使得它可以有效地利用計(jì)算資源，從而保持高效的資源利用率。通過(guò)在多個(gè)處理單元上并行地執(zhí)行專家網(wǎng)絡(luò)，MoE架構(gòu)可以充分利用現(xiàn)代計(jì)算平臺(tái)的并行計(jì)算能力，實(shí)現(xiàn)高效的計(jì)算。

5. 節(jié)省成本和能耗

MoE架構(gòu)使用稀疏激活的專家混合架構(gòu)來(lái)擴(kuò)展模型容量，同時(shí)與密集變體相比，訓(xùn)練成本也大大降低。相關(guān)研究表明當(dāng)有1.2萬(wàn)億個(gè)參數(shù)MoE訓(xùn)練架構(gòu)，參數(shù)量大約是GPT-3的7倍，但只消耗了訓(xùn)練GPT-3能耗的1/3，并且需要一半的計(jì)算觸發(fā)器來(lái)進(jìn)行推理，同時(shí)在29個(gè)NLP任務(wù)中仍然實(shí)現(xiàn)了更好的零次、一次和少次學(xué)習(xí)性能。

當(dāng)然，MoE也有一個(gè)問(wèn)題，就是靜態(tài)內(nèi)存占用大。盡管使用稀疏門控網(wǎng)絡(luò)可以降低計(jì)算成本，但參數(shù)總數(shù)會(huì)隨著專家數(shù)量的增加而線性或亞線性增加。增加專家的數(shù)量需要保留大量的硬件設(shè)備。因此，節(jié)省了動(dòng)態(tài)（已使用）功率，而不節(jié)省靜態(tài)（保留）功率。需要節(jié)能技術(shù)擁有在不使用時(shí)硬件設(shè)備時(shí)，置于低功率狀態(tài)的能力，這樣有助于降低保留能耗。

三、最后

分治原理是貫穿應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)始終的一個(gè)具有廣泛適用性的原理。通過(guò)將復(fù)雜問(wèn)題分解為更簡(jiǎn)單的子問(wèn)題，并通過(guò)組合這些子問(wèn)題的解決方案，我們可以更有效地解決復(fù)雜問(wèn)題。

Grok-1采用Mixture-of-Experts（MoE）架構(gòu)，也是出于類似的分治原理。

這種架構(gòu)使得低成本處理超大參數(shù)量的大型語(yǔ)言模型（LLM）訓(xùn)練成為可能，通過(guò)將模型劃分為多個(gè)專家，并對(duì)每個(gè)專家進(jìn)行獨(dú)立處理，最終將它們的輸出進(jìn)行組合，從而達(dá)到更高效和優(yōu)雅的算法結(jié)構(gòu)。

這種分治的方法為解決復(fù)雜的計(jì)算問(wèn)題提供了一種有效的方式，為未來(lái)的研究和應(yīng)用提供了新的思路和可能性。

參考文獻(xiàn)

Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.
Jordan M I, Jacobs R A. Hierarchical mixtures of experts and the EM algorithm[J]. Neural computation, 1994, 6(2): 181-214.
Yuksel S E, Wilson J N, Gader P D. Twenty years of mixture of experts[J]. IEEE transactions on neural networks and learning systems, 2012, 23(8): 1177-1193.
Eigen D, Ranzato M A, Sutskever I. Learning factored representations in a deep mixture of experts[J]. arXiv preprint arXiv:1312.4314, 2013.
Masoudnia S, Ebrahimpour R. Mixture of experts: a literature survey[J]. Artificial Intelligence Review, 2014, 42: 275-293.
Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
Riquelme C, Puigcerver J, Mustafa B, et al. Scaling vision with sparse mixture of experts[J]. Advances in Neural Information Processing Systems, 2021, 34: 8583-8595.
Zhou Y, Lei T, Liu H, et al. Mixture-of-experts with expert choice routing[J]. Advances in Neural Information Processing Systems, 2022, 35: 7103-7114.
Du N, Huang Y, Dai A M, et al. Glam: Efficient scaling of language models with mixture-of-experts[C]//International Conference on Machine Learning. PMLR, 2022: 5547-5569.
Rajbhandari S, Li C, Yao Z, et al. Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale[C]//International conference on machine learning. PMLR, 2022: 18332-18346.

專欄作家

黃銳，人人都是產(chǎn)品經(jīng)理專欄作家。高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師、資深產(chǎn)品經(jīng)理、多家大型互聯(lián)網(wǎng)公司顧問(wèn)，金融機(jī)構(gòu)、高?？妥芯繂T。主要關(guān)注新零售、工業(yè)互聯(lián)網(wǎng)、金融科技和區(qū)塊鏈行業(yè)應(yīng)用版塊，擅長(zhǎng)產(chǎn)品或系統(tǒng)整體性設(shè)計(jì)和規(guī)劃。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App