Meta 新模型:如果我每14秒生成一個(gè)高清視頻,好萊塢的各位要如何應(yīng)對(duì)|「變壓器」
在12月末,Meta發(fā)布了一篇論文,論文中提出了一個(gè)新的模型——Fairy,這個(gè)模型可以在14秒內(nèi)生成120幀的512x384分辨率視頻(30 FPS,時(shí)長(zhǎng)為4秒),超過(guò)了之前的方法至少44倍的速度。如此看來(lái),F(xiàn)airy的出現(xiàn),是不是會(huì)對(duì)視頻編輯行業(yè)帶來(lái)巨大的沖擊呢?
利用人工智能來(lái)合成視頻一直是該領(lǐng)域的難題,因?yàn)槠渲凶铌P(guān)鍵的一環(huán)——映射與合成,缺乏優(yōu)秀的模型算法,只能利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)不斷提取特征、生成、判斷,直至最后結(jié)果。比如此前曾大火的Deepfake技術(shù),俗稱人工智能換臉,生成一個(gè)短短幾秒的“換頭”視頻也需要10分鐘左右的時(shí)間。
以后就不一樣了,Meta在12月的月末發(fā)布了一篇論文《Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis》。論文提出了一個(gè)新的模型,也就是標(biāo)題中的Fairy。Fairy能夠在僅14秒內(nèi)生成120幀的512×384分辨率視頻(30 FPS,時(shí)長(zhǎng)為4秒),超過(guò)了之前的方法至少44倍的速度。
原圖Fairy合成的視頻
這是一種比較另類的圖像編輯擴(kuò)散模型,使其搖身一變,成為了視頻編輯應(yīng)用。
Fairy的技術(shù)核心是“錨點(diǎn)式跨幀注意力”機(jī)制,它可以在幀之間隱式傳播擴(kuò)散特征,確保時(shí)間上的連貫性和高保真度合成。有了這個(gè)機(jī)制后,F(xiàn)airy不僅解決了以前模型中的內(nèi)存和處理速度限制,還通過(guò)獨(dú)特的數(shù)據(jù)增強(qiáng)策略改進(jìn)了時(shí)間一致性。這種策略使模型對(duì)源圖像和目標(biāo)圖像中的仿射變換保持等變性。
“錨點(diǎn)式跨幀注意力”說(shuō)的直白一點(diǎn),就是允許模型在不同幀之間建立時(shí)間對(duì)應(yīng)關(guān)系。
比如下面這幾張圖,左邊的貓和右邊的船上面都有一個(gè)紅點(diǎn),代表模型定位了圖中物體的特征,F(xiàn)airy模型中,這個(gè)紅點(diǎn)叫做查詢點(diǎn)(query point)。物體開始移動(dòng),途中的紅點(diǎn)會(huì)跟隨其移動(dòng),這是模型將要分析的另一幀,目的是找到與查詢點(diǎn)相對(duì)應(yīng)的區(qū)域或特征,而這個(gè)幾幀后的紅點(diǎn)叫做目標(biāo)幀(target frame)。所謂錨點(diǎn)式跨幀注意力,正是評(píng)估查詢點(diǎn)在當(dāng)前幀中的特征,并將這些特征與目標(biāo)幀中的特征進(jìn)行比較,以估計(jì)最佳匹配。
查詢點(diǎn)
那么“錨點(diǎn)”又是指什么呢?如果放在其他模型里,錨點(diǎn)指的是用來(lái)參考的點(diǎn)。圖片以及視頻中的錨點(diǎn),則特指用于穩(wěn)定識(shí)別、追蹤或定位特征的固定參考點(diǎn)。比如上文提到的貓鼻子,就是特定的面部特征錨點(diǎn)(如眼角或嘴角)。視頻是有多個(gè)連續(xù)的圖片組成的,在Fairy模型中,會(huì)從某一幀圖片里的K個(gè)錨點(diǎn)幀中提取擴(kuò)散特征,并將提取出的特征定義為一組全局特征,以便傳播到后續(xù)幀。
在生成每個(gè)新幀時(shí),F(xiàn)airy模型用跨幀注意力替換自注意力層,這種注意力是針對(duì)錨點(diǎn)幀的緩存特征。通過(guò)跨幀注意力,每個(gè)幀中的token取用錨點(diǎn)幀中展示出相似語(yǔ)義內(nèi)容的特征,從而增強(qiáng)了一致性。
Fairy通過(guò)結(jié)合跨幀注意力和對(duì)應(yīng)估計(jì),改進(jìn)了擴(kuò)散模型中的特征跟蹤和傳播方法。模型把跨幀注意力當(dāng)成是一種相似性度量,以評(píng)估不同幀之間token的對(duì)應(yīng)關(guān)系。這種方法使得相似的語(yǔ)義區(qū)域在不同幀中獲得更高的注意力。通過(guò)這種注意力機(jī)制,F(xiàn)airy在幀間對(duì)相似區(qū)域進(jìn)行加權(quán)求和,從而細(xì)化和傳播當(dāng)前特征,顯著減少幀間特征差異。
這也是為什么Fairy能夠那么快就合成出一個(gè)新的視頻,因?yàn)閺募夹g(shù)原理上來(lái)看,它只合成了一張圖片,剩下所有的內(nèi)容都是這張圖片連續(xù)擴(kuò)散的結(jié)果。很像是一種討巧,其實(shí)更多的像是“偷懶和投機(jī)”。人工智能和人理解世界的方式不同,它所表現(xiàn)出來(lái)的,就是對(duì)“最低勞動(dòng)力成本”的完美詮釋。
Fairy將原視頻轉(zhuǎn)換為新的風(fēng)格
革視頻特效行業(yè)的命
Fairy對(duì)于視頻編輯行業(yè)來(lái)說(shuō),可能會(huì)帶來(lái)一場(chǎng)革命性的變化。當(dāng)下視頻合成最主要的用途是制作特效,我們熟悉的特效大片每一幀都是單獨(dú)制作的,因此每一幀所耗費(fèi)的成本大約數(shù)百到數(shù)千美元,平均下來(lái)相當(dāng)于每分鐘燒掉4萬(wàn)美元。
試想一下,一旦采用Fairy,特效大片動(dòng)輒幾千萬(wàn)幾百萬(wàn)的特效費(fèi)用,將會(huì)直接減少至幾千美金,且制作周期大幅度縮短,以前需要花費(fèi)幾個(gè)月來(lái)渲染,以后興許只需要幾個(gè)禮拜。
有可能你會(huì)有疑惑,現(xiàn)在的一些視頻軟件也可以做到類似的功能,比如抖音、快手,就可以實(shí)時(shí)美顏,或者添加道具跟隨視頻中物體移動(dòng),為什么他們就不能沖擊視頻合成行業(yè)呢?首先是商業(yè)場(chǎng)景對(duì)技術(shù)的需求不同,需要滿足直播、手機(jī)等內(nèi)存比較小的設(shè)備這些先天的條件下,就沒(méi)辦法使用像Fairy一樣的擴(kuò)散方法,最后技術(shù)產(chǎn)出的表現(xiàn)力也就沒(méi)辦法做到那么出色。
就以論文提到的貓舉例,F(xiàn)airy將視頻里的貓變成獅子、給貓配上墨鏡、或者把白貓變成黑貓,最多也就花費(fèi)幾秒鐘而已。你仔細(xì)看,合成后的視頻特效是會(huì)跟隨貓的面部朝向而改變的,在墨鏡那張圖上,這點(diǎn)表現(xiàn)的最明顯。
對(duì)同一視頻合成不同風(fēng)格的心視頻
而且Fairy目前還只是個(gè)“寶寶”。因?yàn)槿魏我粋€(gè)模型從誕生到使用,中間必不可少的一個(gè)環(huán)節(jié)叫做“調(diào)試”。調(diào)試主要由兩件事組成,第一個(gè)是調(diào)整模型訓(xùn)練、推理以及最后的輸出,將其變成更符合實(shí)際商業(yè)場(chǎng)景化的形式。這個(gè)過(guò)程可以讓模型表現(xiàn)出更好的性能。第二件事是壓縮、優(yōu)化模型,提高模型的運(yùn)行效率,縮減運(yùn)行成本,用最短時(shí)間完成業(yè)務(wù)。
另外Fairy除了能夠生成高質(zhì)量視頻,還能夠以前所未有的速度生成高分辨率的視頻,這個(gè)提升也是巨大的。論文用生成的1000個(gè)視頻和現(xiàn)有的方法進(jìn)行比較,包括TokenFlow、Renderer和Gen-1等方法。評(píng)估結(jié)果顯示,F(xiàn)airy在質(zhì)量上超過(guò)了之前的最先進(jìn)方法。因此研究團(tuán)隊(duì)對(duì)此稱道“這是迄今為止視頻/視頻生成文獻(xiàn)中最大規(guī)模的評(píng)估?!?/p>
與其他模型的比較,占比越高代表質(zhì)量越好
Fairy的出現(xiàn)可能會(huì)開啟一波視頻生成熱,就像GPT開啟文字生成熱潮,DALL·E開啟圖片生成熱潮那樣。視頻合成領(lǐng)域雖然有Deepfake那樣的先鋒,不過(guò)在結(jié)合實(shí)際的訓(xùn)練、推理、交互、生成等等一系列綜合體驗(yàn)來(lái)說(shuō),F(xiàn)airy是獨(dú)樹一幟的存在。畢竟它太快了,快到讓人覺(jué)得有些不可思議。好萊塢的好日子好像又變短了一些。
2017年,來(lái)自谷歌的幾個(gè)研究員寫下《Attention is All you need》的題目,給世界帶來(lái)了Transformer模型架構(gòu),它成為了今天“大模型”繁榮背后無(wú)可爭(zhēng)議的根基,OpenAI的GPT,Meta的Llama以及一眾最主流大語(yǔ)言模型都是在Transformer的基礎(chǔ)上生長(zhǎng)起來(lái),今天還有一批又一批聰明的研究者在不停嘗試提出比Transformer更強(qiáng)的模型架構(gòu)。
某種程度上,今天所有AI模型層面的研究都在圍繞對(duì)Transformer的掌控與超越展開。但這樣一個(gè)劃時(shí)代的研究在當(dāng)時(shí)并未立刻引起所有人的重視,而這種“嗅覺(jué)”的差異也很大程度決定了今天的AI格局——OpenAI在這篇論文出現(xiàn)第二天就立刻徹底轉(zhuǎn)向了Transformer架構(gòu),然后2020年5月OpenAI基于Transformer架構(gòu)的GPT-3論文發(fā)表,2年后ChatGPT出現(xiàn),一切都不再相同。
「變壓器」這個(gè)欄目名來(lái)自對(duì)Transformer的直譯,我們會(huì)拆解和介紹關(guān)于AI及相關(guān)技術(shù)的最新論文和最前沿研究,希望像OpenAI當(dāng)年看到Transformer一樣,幫助更多人遇到自己的「變壓器」時(shí)刻,比一部分人更早進(jìn)入生成式AI的世代。
作者:苗正
來(lái)源公眾號(hào):硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!