GAN已死?GAN萬(wàn)歲!布朗康奈爾新作爆火,一夜碾壓擴(kuò)散模型

0 評(píng)論 2358 瀏覽 0 收藏 30 分鐘

GAN已死?不,它卷土重來(lái)了!布朗大學(xué)和康奈爾大學(xué)的研究者剛剛提出了R3GAN,充分利用現(xiàn)代架構(gòu)設(shè)計(jì),徹底摒棄臨時(shí)技巧,一半?yún)?shù)就能碾壓擴(kuò)散模型。網(wǎng)友驚呼:游戲規(guī)則要改變了!

GAN已死?

不,GAN又回來(lái)了!

此前曾掀起AI圈巨大風(fēng)暴的GAN,后來(lái)卻逐漸沉寂了,甚至有人發(fā)出了「GAN已死」的論調(diào)。

2022年,「GAN已經(jīng)過(guò)時(shí)、被擴(kuò)散模型取代」的論調(diào)激起熱議

原因有很多,比如人們普遍覺(jué)得GAN很難訓(xùn)練,文獻(xiàn)中的GAN架構(gòu)也充斥著經(jīng)驗(yàn)技巧。

但就在剛剛,布朗大學(xué)和康奈爾的研究者在這篇論文中,要徹底為GAN正名!

論文地址:https://arxiv.org/abs/2501.05441

論文中,作者提出了一種突破性的新型GAN架構(gòu)——R3GAN(Re-GAN),其最大核心亮點(diǎn)在于,引入了全新的正則化相對(duì)性損失函數(shù)。

它不僅在理論上證明了局部收斂性,更在實(shí)踐中顯著提升了模型訓(xùn)練的穩(wěn)定性。

這一突破,使得模型能夠摒棄傳統(tǒng)GAN中必須依賴的各種技巧,轉(zhuǎn)而采用了更加現(xiàn)代化的深度學(xué)習(xí)架構(gòu)。

結(jié)果證明,一個(gè)不使用任何技巧的極簡(jiǎn)GAN,能夠以一半的模型參數(shù),以及單步生成的方式達(dá)到與EDM(擴(kuò)散模型)相當(dāng)?shù)男阅堋?/p>

就看這個(gè)R3GAN的出圖質(zhì)量是多么地穩(wěn)定!

圍觀網(wǎng)友們表示,這絕對(duì)是改變游戲規(guī)則的一項(xiàng)研究——如果能正確地訓(xùn)練GAN,那簡(jiǎn)直就是一場(chǎng)噩夢(mèng)。

在智能體非常爆火的當(dāng)下,GAN顯得前途無(wú)量。

因?yàn)镚AN非常適合需要速度的專門任務(wù),而Transformer則適用于其他所有任務(wù)。智能體就可以使用GAN,來(lái)加速部分流程,或做出時(shí)間關(guān)鍵的決策。

一、擴(kuò)散模型風(fēng)生水起,GAN卻陷困境

還記得2014年,當(dāng)Goodfellow等人首次提出GAN時(shí),整個(gè)AI界都為之震動(dòng)。

一個(gè)能夠通過(guò)單詞前向傳播生成高質(zhì)量的模型,簡(jiǎn)直就是一場(chǎng)革命。

論文地址:https://arxiv.org/pdf/1406.2661

然而,隨之而來(lái)的困擾也接踵而至——訓(xùn)練不穩(wěn)定性,成為了揮之不去的陰影。

對(duì)于研究人員來(lái)說(shuō),他們擔(dān)憂的是害怕模型訓(xùn)練隨時(shí)會(huì)「暴走」,或者生成的圖像千篇一律,失去了應(yīng)有的多樣性。

盡管這些年,GAN的目標(biāo)函數(shù)不斷改進(jìn),但在具體實(shí)踐中,這些函數(shù)的問(wèn)題是始終如影隨形,一直以來(lái)對(duì)GAN研究產(chǎn)生了持久的負(fù)面影響。

隨后,2019年,著名的StyleGAN架構(gòu)誕生了。它就像是一個(gè)「補(bǔ)丁大師」,為了提高穩(wěn)定性,使用了梯度懲罰的非飽和損失;同時(shí)又為了增加樣本多樣性,又不得不采用小批量標(biāo)準(zhǔn)差的技巧。

論文地址:https://arxiv.org/pdf/1812.04948

這些看似矛盾的做法,實(shí)際上反映了GAN架構(gòu)本身的局限性。

更有趣的是,如果去除這些技巧,StyleGAN的骨干網(wǎng)絡(luò)竟和2015年的DCGAN驚人地相似!

這就不禁讓人思考:為什么其他生成模型,比如擴(kuò)散模型,都能得到快速改進(jìn),而GAN卻似乎停滯不前?

在擴(kuò)散模型中,多頭自注意力等等現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù),以及預(yù)激活ResNet、U-Net和視覺(jué)Transformer(ViT)等骨干網(wǎng)絡(luò)已成為常態(tài)。

考慮到這些過(guò)時(shí)的骨干網(wǎng)絡(luò),人們普遍認(rèn)為GAN在FID等定量指標(biāo)方面無(wú)法擴(kuò)展,也就不足為奇了。

好消息是,布朗大學(xué)和康奈爾大學(xué)的研究人員在這個(gè)領(lǐng)域取得了重大的突破。他們提出了一個(gè)創(chuàng)新性的解決方案,包含兩個(gè)關(guān)鍵要素:

1)新型目標(biāo)函數(shù)

將相對(duì)配對(duì)GAN損失(RpGAN)與零中心梯度懲罰相結(jié)合,提高了穩(wěn)定性。他們?cè)跀?shù)據(jù)上證明了,帶梯度懲罰的RpGAN,享有與正則化經(jīng)典GAN相同的局部收斂性。

2)現(xiàn)代化改造

摒棄StyleGAN反鎖技巧,轉(zhuǎn)而采用簡(jiǎn)潔而高效的現(xiàn)代架構(gòu)設(shè)計(jì)。結(jié)果發(fā)現(xiàn),適當(dāng)?shù)腞esNet設(shè)計(jì)、初始化和重采樣,同時(shí)加上分組卷積和無(wú)歸一化,就能達(dá)到甚至超越StyleGAN的性能。

總的來(lái)說(shuō),新論文首先從數(shù)學(xué)上論證了通過(guò)改進(jìn)的正則化損失,讓GAN的訓(xùn)練不必那么棘手。

然后,在實(shí)驗(yàn)中開(kāi)發(fā)了一個(gè)簡(jiǎn)單的GAN基準(zhǔn),在不使用任何技巧的情況下,在FFHQ、ImageNet、CIFAR和Stacked MNIST數(shù)據(jù)集上,其FID表現(xiàn)優(yōu)于StyleGAN、其他最先進(jìn)的GAN和擴(kuò)散模型。

那么,研究人員具體是如何做到的呢?

二、RpGAN+R_1+R_2穩(wěn)定性和多樣性

在定義GAN的目標(biāo)函數(shù)時(shí),研究人員面臨這兩個(gè)挑戰(zhàn):穩(wěn)定性和多樣性。

先前的研究中,有的專攻穩(wěn)定性問(wèn)題,而有的則處理處理模式崩塌問(wèn)題。

為了在這兩個(gè)方面都取得進(jìn)展,團(tuán)隊(duì)將一個(gè)穩(wěn)定的方法與一個(gè)基于理論的簡(jiǎn)單正則化器相結(jié)合。

1. 傳統(tǒng)GAN

傳統(tǒng)GAN是在判別器D_ψ和生成器G_θ之間的極小極大博弈中形成的。給定真實(shí)數(shù)據(jù)x ~ p_D和G_θ生產(chǎn)的虛假數(shù)據(jù)x ~ p_θ,GAN最一般的形式可以表示為:

其中G試圖最小化L,而D試圖最大化G,f的選擇是靈活的。特別地,當(dāng)

時(shí),就得到了Goodfellow等人提出的經(jīng)典GAN。

實(shí)踐已經(jīng)證明,當(dāng)p_θ可以直接優(yōu)化時(shí),該方程具有凸性質(zhì)。然而,在實(shí)際實(shí)現(xiàn)中,經(jīng)驗(yàn)GAN損失通常會(huì)將虛假樣本推到D設(shè)定的決策邊界之外,而不是直接更新密度函數(shù) p_θ。

這種偏差導(dǎo)致了一個(gè)顯著更具挑戰(zhàn)性的問(wèn)題,其特征是容易出現(xiàn)兩種普遍的失敗情況:模式崩塌/丟失和不收斂。

2. 相對(duì)f-GAN(Relativistic f-GAN)

這時(shí),研究人員采用了由Jolicoeur Martineau團(tuán)隊(duì)提出的一種略有不同的極小極大博弈,稱為相對(duì)配對(duì)GAN(RpGAN),用于解決模式丟失問(wèn)題。

一般的RpGAN定義如下:

雖然方程2(RpGAN)和方程1(傳統(tǒng)GAN)看起來(lái)只有細(xì)微差別,但評(píng)估這種判別器差異對(duì)損失函數(shù)L的整體形態(tài)有根本性影響。

RpGAN通過(guò)耦合真實(shí)和虛假數(shù)據(jù),引入了一個(gè)簡(jiǎn)單的解決方案,即通過(guò)將虛假樣本相對(duì)于真實(shí)樣本的真實(shí)性來(lái)進(jìn)行評(píng)判,這有效地在每個(gè)真實(shí)樣本的鄰域中維持了一個(gè)決策邊界,從而防止了模式丟失。

3. RpGAN的訓(xùn)練動(dòng)態(tài)

盡管RpGAN的景觀結(jié)果,讓研究人員能夠解決模式丟失的問(wèn)題,但RpGAN的訓(xùn)練動(dòng)態(tài)還有待研究。

等式2的最終目標(biāo)是找到平衡點(diǎn)(θ^?, ψ^?),使得p_θ^? = p_D且Dψ^?在p_D上處處為常數(shù)。

這里,作者提出了兩個(gè)命題:

命題 I.(非形式化表述):使用梯度下降法時(shí),未正則化的RpGAN并不總是收斂。

命題 II.(非形式化表述):在與Mescheder等人類似的假設(shè)條件下,使用R_1或R_2正則化的RpGAN能夠?qū)崿F(xiàn)局部收斂。

對(duì)于第一個(gè)命題,他們通過(guò)分析表明,對(duì)于某些類型的p_D,比如接近于delta分布,RpGAN是不會(huì)收斂的。因此,為了構(gòu)建一個(gè)表現(xiàn)良好的損失函數(shù),進(jìn)一步的正則化是必要的。

對(duì)于第二個(gè)命題,研究的證明類似地分析了在點(diǎn)(θ^?,ψ^?)處正則化RpGAN梯度向量場(chǎng)的雅可比(Jacobian)矩陣特征值。他們證明了所有特征值都具有負(fù)實(shí)部;因此,對(duì)于足夠小的學(xué)習(xí)率,正則化RpGAN在(θ^?,ψ^?)的鄰域內(nèi)是收斂的。

4. 實(shí)際演示

如下圖1展示了,使用R_1正則化的傳統(tǒng)GAN損失函數(shù),會(huì)快速發(fā)散。雖然從理論上來(lái)說(shuō),僅使用R_1正則化的RpGAN足以實(shí)現(xiàn)局部收斂,但它也會(huì)表現(xiàn)不穩(wěn)定并且會(huì)快速發(fā)散。

同時(shí)使用R1和R2正則化后,傳統(tǒng)GAN和RpGAN的訓(xùn)練都變得穩(wěn)定。

如下表1所示,在穩(wěn)定的情況下,可以看到傳統(tǒng)GAN存在模式丟失問(wèn)題,而RpGAN則實(shí)現(xiàn)了完整的模式覆蓋,并將D_KL從0.9270降低到0.0781。

作為對(duì)比,StyleGAN使用小批量標(biāo)準(zhǔn)差技巧來(lái)減少模式丟失,在StackedMNIST數(shù)據(jù)集上將模式覆蓋從857提高到881,但在D_KL上幾乎沒(méi)有改善。

三、全新基線路線圖——R3GAN

精心設(shè)計(jì)的RpGAN+R_1+R_2損失緩解了GAN的優(yōu)化問(wèn)題,使研究者能夠以最新的網(wǎng)絡(luò)骨干進(jìn)展為基礎(chǔ),構(gòu)建一個(gè)極簡(jiǎn)的基準(zhǔn)模型——R3GAN。

在這項(xiàng)工作中,研究者并不是簡(jiǎn)單地陳述新方法,而是從StyleGAN2基準(zhǔn)模型出發(fā)繪制路線圖。

該模型包括生成器 (G) 的VGG風(fēng)格骨干網(wǎng)絡(luò)、判別器 (D) 的ResNet結(jié)構(gòu)、一系列促進(jìn)基于風(fēng)格生成的技術(shù),以及許多彌補(bǔ)弱主干網(wǎng)絡(luò)缺陷的技巧。

隨后,他們移除了StyleGAN2的所有非必要特性,應(yīng)用了所提出的損失函數(shù),并逐步對(duì)網(wǎng)絡(luò)骨干進(jìn)行現(xiàn)代化改造。

研究者在FFHQ 256×256數(shù)據(jù)集上評(píng)估了每種配置。

所有配置的網(wǎng)絡(luò)容量大致保持相同——生成器 (G) 和判別器 (D) 的可訓(xùn)練參數(shù)均約為2500萬(wàn)。

每種配置的訓(xùn)練均持續(xù)到判別器 (D) 處理了500萬(wàn)張真實(shí)圖像。除非另有說(shuō)明,訓(xùn)練的超參數(shù)(例如優(yōu)化器設(shè)置、批大小、EMA衰減長(zhǎng)度)均沿用自配置A。

研究者針對(duì)最終模型調(diào)整了訓(xùn)練超參數(shù),并將在第4節(jié)中展示其收斂結(jié)果。

最小基線(配置B)

研究者移除了所有StyleGAN2的特性,僅保留原始的網(wǎng)絡(luò)骨干和基礎(chǔ)的圖像生成能力。

這些特性可分為三類:

  1. 基于風(fēng)格的生成:映射網(wǎng)絡(luò)、風(fēng)格注入、權(quán)重調(diào)制/去調(diào)制、噪聲注入 。
  2. 圖像操作增強(qiáng):混合正則化、路徑長(zhǎng)度正則化。
  3. 技巧:z歸一化、小批量標(biāo)準(zhǔn)差、均衡學(xué)習(xí)率、延遲正則化。

遵循以上做法,研究者將z的維度降低至64。由于移除了均衡學(xué)習(xí)率,學(xué)習(xí)率需進(jìn)一步降低,從原來(lái)的2.5×10?3降至5×10??。

盡管與配置A相比,簡(jiǎn)化后的基線模型的FID更高,但它仍能生成質(zhì)量較好的樣本,并實(shí)現(xiàn)穩(wěn)定的訓(xùn)練效果。

研究者將其與DCGAN進(jìn)行比較,主要區(qū)別包括:

a) 使用R1正則化的收斂訓(xùn)練目標(biāo)。

b) 較小的學(xué)習(xí)率,避免使用帶動(dòng)量的優(yōu)化器。

c) 在生成器 (G) 和判別器 (D) 中均不使用歸一化層。

d) 通過(guò)雙線性插值進(jìn)行正確的重采樣,而非使用步幅(反卷積)操作。

e) 在G和D中使用leaky ReLU激活函數(shù),G 的輸出層中不使用tanh。

f) G使用4×4常量輸入,輸出跳躍連接,D使用ResNet結(jié)構(gòu)。

1. StyleGAN的實(shí)驗(yàn)發(fā)現(xiàn)

違反a)、b) 或 c),通常會(huì)導(dǎo)致訓(xùn)練失敗。前人研究表明,負(fù)動(dòng)量可以改善 GAN的訓(xùn)練動(dòng)態(tài)。

然而,由于負(fù)動(dòng)量的最優(yōu)設(shè)置是一個(gè)復(fù)雜的超參數(shù),因此研究者選擇不使用任何動(dòng)量,以避免惡化GAN的訓(xùn)練動(dòng)態(tài)。

研究表明,歸一化層對(duì)生成模型有害。批歸一化通常會(huì)由于跨多個(gè)樣本的依賴性而破壞訓(xùn)練,并且與假設(shè)每個(gè)樣本獨(dú)立處理的R_1、R_2或 RpGAN不兼容。

早期的GAN雖然可能違反a)和c),但仍能成功,這或許是因?yàn)樗鼈儗?duì)方程1提供了一個(gè)滿秩解。

違反d)或e)雖然不會(huì)顯著影響訓(xùn)練的穩(wěn)定性,但會(huì)對(duì)樣本質(zhì)量產(chǎn)生負(fù)面影響。

不正確的反卷積可能導(dǎo)致棋盤(pán)偽影,即使使用子像素卷積或精心調(diào)整的反卷積也無(wú)法解決,除非應(yīng)用低通濾波器。

插值方法可以避免該問(wèn)題,為了簡(jiǎn)化,研究者采用雙線性插值。

在激活函數(shù)的選擇上,研究者選擇使用leaky ReLU。

所有后續(xù)配置均遵守a)到e)。f)的違反是可以接受的,因?yàn)樗婕暗?StyleGAN2的網(wǎng)絡(luò)骨干,在配置D和配置E中已經(jīng)現(xiàn)代化。

表現(xiàn)良好的損失函數(shù)(配置C):研究者采用第2節(jié)提出的損失函數(shù),將 FID降低到11.65。他們推測(cè),配置B的網(wǎng)絡(luò)骨干是性能的限制因素。

通用網(wǎng)絡(luò)現(xiàn)代化(配置D):研究者首先將1-3-1瓶頸ResNet 架構(gòu)應(yīng)用于G和D。該架構(gòu)是所有現(xiàn)代視覺(jué)骨干網(wǎng)絡(luò)的直接前身。

圖 2:架構(gòu)對(duì)比。在圖像生成中,生成器 (G) 和判別器 (D) 通常都是深度卷積網(wǎng)絡(luò) (ConvNets),且架構(gòu)部分或完全對(duì)稱。(a) StyleGAN2的生成器 (G) 使用一個(gè)網(wǎng)絡(luò)將噪聲向量z映射到中間風(fēng)格空間W。(b) StyleGAN2的構(gòu)建模塊層次復(fù)雜,但其本質(zhì)仍然簡(jiǎn)單,采用了2015年的卷積網(wǎng)絡(luò)架構(gòu)。(c) 研究者去除了各種技巧并對(duì)架構(gòu)進(jìn)行了現(xiàn)代化設(shè)計(jì),如更干凈的層次結(jié)構(gòu),更強(qiáng)大的卷積網(wǎng)絡(luò)架構(gòu)

研究者還結(jié)合了從配置B中發(fā)現(xiàn)的原則,以及ConvNeXt的各種現(xiàn)代化設(shè)計(jì)。他們將ConvNeXt的發(fā)展路線分為以下幾類:

i. 持續(xù)有益的改進(jìn):

– i.1) 使用深度卷積增加網(wǎng)絡(luò)寬度,

– i.2) 反轉(zhuǎn)瓶頸結(jié)構(gòu),

– i.3) 減少激活函數(shù),

– i.4) 獨(dú)立的重采樣層。

ii. 性能提升有限:

– ii.1) 較大卷積核的深度卷積配合更少的通道數(shù),

– ii.2) 用GELU替換ReLU,

– ii.3) 減少歸一化層,

– ii.4) 用層歸一化替換批歸一化。

iii. 與模型無(wú)關(guān)的改進(jìn):

– iii.1) 改進(jìn)的訓(xùn)練策略,

– iii.2) 階段比率,

– iii.3) 「patchify」的網(wǎng)絡(luò)輸入層。

研究者計(jì)劃將i)中的改進(jìn)應(yīng)用于他們的模型,特別是針對(duì)經(jīng)典ResNet應(yīng)用的i.3 和i.4,而i.1和i.2則留待配置E。

2. 神經(jīng)網(wǎng)絡(luò)架構(gòu)細(xì)節(jié)

基于i.3、i.4以及原則c)、d)和e),研究者將StyleGAN2的骨干替換為現(xiàn)代化的 ResNet。

生成器(G)和判別器(D)的設(shè)計(jì)完全對(duì)稱,參數(shù)量均為2500萬(wàn),與配置A相當(dāng)。

架構(gòu)設(shè)計(jì)極簡(jiǎn):每個(gè)分辨率階段包含一個(gè)轉(zhuǎn)換層和兩個(gè)殘差塊。

– 轉(zhuǎn)換層:由雙線性重采樣和一個(gè)可選的1×1卷積層組成,用于改變空間尺寸和特征圖通道數(shù)。

– 殘差塊:包括以下五個(gè)操作:Conv1×1→Leaky ReLU→Conv3×3→Leaky ReLU→Conv1×1,其中最后的Conv1×1不帶偏置項(xiàng)。

對(duì)4×4分辨率階段,轉(zhuǎn)換層在G中被基礎(chǔ)層替代,在D中被分類頭替代:

– 基礎(chǔ)層:類似于StyleGAN,使用4×4可學(xué)習(xí)特征圖,通過(guò)線性層調(diào)制z。

– 分類頭:使用全局4×4深度卷積去除空間維度,然后通過(guò)線性層生成D的輸出。

四、實(shí)驗(yàn)細(xì)節(jié)

1. FFHQ-256的路線圖見(jiàn)解

如表2所示,配置A(原始 StyleGAN2)在FFHQ-256數(shù)據(jù)集上使用官方實(shí)現(xiàn),達(dá)到了7.52的FID。

移除所有技巧的配置B,實(shí)現(xiàn)了12.46的FID,性能如預(yù)期有所下降。

配置C使用表現(xiàn)良好的損失函數(shù),F(xiàn)ID降至11.65,訓(xùn)練穩(wěn)定性也得到了顯著提升,為改進(jìn)架構(gòu)提供了可能。

Config D基于經(jīng)典ResNet和ConvNeXt的研究改進(jìn)了G和D,F(xiàn)ID進(jìn)一步降至9.95。

在研究者的新架構(gòu)下,StyleGAN2生成器的輸出跳躍連接不再有用,保留它反而會(huì)使FID升高至10.17。

對(duì)于Config E,研究者進(jìn)行了兩個(gè)實(shí)驗(yàn),分別對(duì) i.1(通過(guò)深度卷積增加寬度)和 i.2(反轉(zhuǎn)瓶頸結(jié)構(gòu))進(jìn)行消融。

通過(guò)反轉(zhuǎn)輸入層和瓶頸維度以增強(qiáng)分組卷積的容量,最終模型達(dá)到了7.05的 FID,性能超過(guò)了StyleGAN2。

2. 模式恢復(fù)實(shí)驗(yàn) – StackedMNIST

研究者在StackedMNIST數(shù)據(jù)集上重復(fù)了早期的1000模態(tài)收斂實(shí)驗(yàn),但這次使用了更新后的架構(gòu),并與當(dāng)前最先進(jìn)的GAN和基于似然的方法進(jìn)行了比較(見(jiàn)表3和圖5)。

基于似然的模型(如擴(kuò)散模型)的一個(gè)優(yōu)勢(shì)是能夠?qū)崿F(xiàn)模式覆蓋。

研究者發(fā)現(xiàn),大多數(shù)GAN都難以捕獲所有模態(tài)。然而,PresGAN、DDGAN和他們的方法在這方面都取得了成功。

3. FID — FFHQ-256(優(yōu)化版本)

研究者在FFHQ數(shù)據(jù)集上,以256×256 分辨率訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃(見(jiàn)表4,圖4和圖6)。

他們的模型在該常見(jiàn)實(shí)驗(yàn)設(shè)置下,性能優(yōu)于現(xiàn)有的StyleGAN方法以及四種最新的基于擴(kuò)散模型的方法。

4. FID — FFHQ-64

為了直接與EDM進(jìn)行比較,研究者在FFHQ數(shù)據(jù)集上以64×64分辨率評(píng)估了模型。

為此,他們移除了256×256模型中兩個(gè)最高分辨率的階段,從而使生成器的參數(shù)數(shù)量不到EDM的一半。

盡管如此,模型在該數(shù)據(jù)集上的表現(xiàn)仍優(yōu)于EDM,且僅需一次函數(shù)評(píng)估。

5. FID — CIFAR-10

研究人員在CIFAR-10數(shù)據(jù)集上訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃(見(jiàn)表6,圖8)。

盡管模型容量相對(duì)較小,但在FID指標(biāo)上仍優(yōu)于許多其他GAN方法。

例如,StyleGAN-XL的生成器參數(shù)量為1800萬(wàn),判別器參數(shù)量為1.25億,而新模型的生成器和判別器總參數(shù)量?jī)H為4000萬(wàn)(如下圖3所示)。

與基于擴(kuò)散模型的方法(如LDM、ADM)相比,GAN推理顯著更高效,因?yàn)镚AN僅需一次網(wǎng)絡(luò)函數(shù)評(píng)估,而擴(kuò)散模型在沒(méi)有蒸餾的情況下通常需要數(shù)十到數(shù)百次評(píng)估。

許多當(dāng)前最先進(jìn)的GAN都源于Projected GAN,包括StyleGAN-XL和同時(shí)期的StyleSAN-XL。這些方法在判別器中使用了一個(gè)預(yù)訓(xùn)練的ImageNet分類器。

已有研究表明,預(yù)訓(xùn)練的ImageNet判別器可能會(huì)將ImageNet的特征泄露到模型中,從而導(dǎo)致模型在FID評(píng)估中表現(xiàn)更好,因?yàn)樗蕾囉陬A(yù)訓(xùn)練的ImageNet分類器來(lái)計(jì)算損失。

然而,這并未在感知研究中提升結(jié)果。新模型無(wú)需任何ImageNet預(yù)訓(xùn)練,即可實(shí)現(xiàn)較低的FID。

6. FID — ImageNet-32

研究人員在ImageNet-32數(shù)據(jù)集(條件生成)上訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃。

如下表7,對(duì)比了新方法與近期的GAN模型和擴(kuò)散模型。

作者調(diào)整了生成器的參數(shù)數(shù)量,使其與StyleGAN-XL的生成器匹配(84M參數(shù)),具體來(lái)說(shuō),他們將模型顯著加寬以達(dá)到這一目標(biāo)。

盡管判別器的參數(shù)量比StyleGAN-XL小了60%,且未使用預(yù)訓(xùn)練的ImageNet分類器,新方法仍然達(dá)到了與其相當(dāng)?shù)腇ID。

7. FID — ImageNet-64

研究人員在ImageNet-64數(shù)據(jù)集上評(píng)估了新模型,以測(cè)試其擴(kuò)展能力。

他們?cè)贗mageNet-32模型的基礎(chǔ)上增加了一個(gè)分辨率階段,使生成器的參數(shù)量達(dá)到了104M。

這一模型的規(guī)模僅為基于ADM骨干的擴(kuò)散模型的三分之一(ADM骨干約有300M參數(shù))。

盡管新模型規(guī)模更小,且僅需一步即可生成樣本,但在FID指標(biāo)上仍然優(yōu)于許多需要大量網(wǎng)絡(luò)函數(shù)評(píng)估(NFE)的更大型擴(kuò)散模型(如下表8所示)。

8. 召回率

研究人員又在每個(gè)數(shù)據(jù)集上評(píng)估了模型的召回率,以量化樣本的多樣性??傮w而言,新模型達(dá)到了與擴(kuò)散模型相似或略差的召回率,但優(yōu)于現(xiàn)有的GAN模型。

對(duì)于CIFAR-10,新模型的召回率最高達(dá)到0.57;作為對(duì)比,StyleGAN-XL盡管FID更低,但其召回率更差,僅為0.47。

對(duì)于FFHQ,新模型在64×64分辨率下獲得了0.53的召回率,在256×256分辨率下獲得了0.49的召回率,而StyleGAN2在FFHQ-256上的召回率為0.43。

研究者的ImageNet-32模型達(dá)到了0.63的召回率,這與ADM相當(dāng)。

另外,ImageNet-64模型達(dá)到了0.59的召回率。雖然這略低于許多擴(kuò)散模型達(dá)到的約0.63的水平,但仍優(yōu)于BigGAN-deep所達(dá)到的0.48的召回率。

作者介紹:

Yiwen Huang

Yiwen Huang(Nick Huang)目前是布朗大學(xué)計(jì)算機(jī)科學(xué)博士生。他曾于2023年獲得了布朗大學(xué)碩士學(xué)位。

Aaron Gokaslan

Aaron Gokaslan是康奈爾大學(xué)的四年級(jí)博士候選人,導(dǎo)師是Volodymyr Kuleshov。此前,他在Facebook AI Research工作,由Dhruv Batra指導(dǎo)。

在此之前,他布朗大學(xué)完成了碩士和本科學(xué)業(yè),師從James Tompkin。

Gokaslan的研究重點(diǎn)是識(shí)別、設(shè)計(jì)和構(gòu)建高效、可擴(kuò)展、可持續(xù)且經(jīng)濟(jì)的生成建模研究抽象和基礎(chǔ)設(shè)施。我也在數(shù)據(jù)、法律和AI政策的交叉領(lǐng)域開(kāi)展工作。

Volodymyr Kuleshov

Volodymyr Kuleshov目前是康奈爾大學(xué)計(jì)算機(jī)科學(xué)系助理教授。他曾在斯坦福大學(xué)獲得博士學(xué)位,并獲得了Arthur Samuel最佳論文獎(jiǎng)。

他的研究主要關(guān)注機(jī)器學(xué)習(xí)及其在科學(xué)、健康和可持續(xù)性方面的應(yīng)用。

James Tompkin

James Tompkin是布朗大學(xué)助理教授,專注于計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和人機(jī)交互領(lǐng)域。

參考資料:

https://x.com/iScienceLuvr/status/1877624087046140059

https://huggingface.co/papers/2501.05441

https://x.com/multimodalart/status/1877724335474987040

https://x.com/SkyLi0n/status/1877824423455072523

編輯:Aeneas 桃子

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!