Chat GPT文生圖不用DALL·E模型了?
本文圍繞ChatGPT文生圖能力的更新展開,探討了其從依賴DALL·E模型到采用非自回歸模型的轉(zhuǎn)變,分析了新模型在圖像生成準(zhǔn)確性、效率及多模態(tài)融合等方面的優(yōu)勢,同時對比了不同文生圖工具的表現(xiàn),思考了OpenAI技術(shù)路線調(diào)整背后的原因與意義
昨晚,Open AI更新了ChatGPT文生圖能力。
準(zhǔn)確來說,這次升級是一次小革命。以前,它借助DALL—E來生成圖像,現(xiàn)在功能直接融入到ChatGPT里面了。
新能力能讓ChatGPT生成的圖片更準(zhǔn)確。什么叫準(zhǔn)確?按照官方意思,能貼合你的要求。要讓它生成一個戴眼鏡的貓咪,它會先思考一下,然后畫出來一個更詳細(xì)的戴眼鏡的貓咪。
最后一項(xiàng)是修改圖像。哪些細(xì)節(jié)不滿意,直接告訴它就能修改。
官方直播活動中,也演示了幾個例子。有兩名研究人員和奧特曼拍了一張合影,然后他們讓ChatGPT把這張普通的照片變成動畫風(fēng)格的畫。結(jié)果,ChatGPT輕松地就完成了這個任務(wù)。
另一個是,團(tuán)隊(duì)要求ChatGPT在生成的圖像上加一些文字,比如在圖片上寫上“Feel The AGI”。ChatGPT也順利地做到了。
看不少介紹的文章后,感覺有些吹捧,于是上午見完朋友,下午回來趕緊試了試。問題是,怎么區(qū)分不同模型之間的能力差異呢?
我讓Qwen幫我寫了個提示詞:
“想象一個賽博朋克風(fēng)格的場景,霓虹燈一閃一閃的,到處都是高樓大廈,樓上有大廣告屏,街上跑著懸浮車,天上飛著無人機(jī),還有一輪紫色的月亮掛在天上,地上的行人穿著高科技的衣服。從高處往下看整個城市,畫面要高清,細(xì)節(jié)越多越好”。
寫完后,把提示詞分別給了GPT和即夢AI。不到20秒,GPT出圖了,它和即夢AI的圖對比來說,每個模型對提示詞的理解不同,兩張圖都有賽博朋克的感覺,但細(xì)節(jié)上各有特點(diǎn)。
要評價的話,兩張圖片都比較模糊。但即夢AI操作起來比較方便,直接點(diǎn)擊細(xì)節(jié)修復(fù)、超清功能,就能有效提升清晰度,效果明顯。
GPT在這方面稍顯不足,我讓它生成高清一點(diǎn)的圖,結(jié)果它又生成了一張圖,遺憾的是,依然沒有達(dá)到我的預(yù)期。
圖釋:左,Chat GPT;右,即夢AI
因此,從圖像清晰度控制的可控性來看,GPT可能稍弱一些。不過它也有自己的優(yōu)勢;比如:在調(diào)整尺寸上,我提出要1:1尺寸的圖片時,它會給到兩個不同的解決方案,并問我,你覺得哪個更高?更傾向哪個?
重復(fù)試了好幾個提示詞,結(jié)果依然這樣。
我又試了一下它的新能力:世界知識的功能。官方說,這功能讓AI在生成圖片時,能更好地理解,并用上現(xiàn)實(shí)世界里的知識,做出的圖更貼合用戶的要求,也更符合實(shí)際邏輯。
說白了,AI在作圖時,會考慮現(xiàn)實(shí)里的細(xì)節(jié),像地理位置、文化背景、還有物理規(guī)矩啥的。比如,畫個雪山就不會冒出熱帶植物,畫個古代場景不會突然冒出手機(jī)。
于是,我讓Qwen幫我又寫了一個提示詞:
“生成一張圖,用兩個站在滑板上的人推對方的動作來解釋牛頓第三定律。要求畫面直觀,能清楚展示作用力和反作用力的關(guān)系?!?/p>
給到它后,怎么評價呢?像那么回事。它能展示兩個人在滑板上互相推開的關(guān)系,而且還增加了一些箭頭和英文解釋;但是,我為什么覺得這個能力像一個圖像PPT功能呢。
緊接著,我又測試幾輪,分別生成一個人的頭部骨骼、身體骨骼。如果滿分是10分,我最多給6分,因?yàn)榇蟛糠帜芰ψ止?jié)、騰訊的文生圖模型都能做到。
Sam Altman對這款產(chǎn)品評價很高,表示難以相信這是AI生成的,認(rèn)為大家會喜歡,并期待用戶用它創(chuàng)作出更多創(chuàng)意內(nèi)容。
他的目標(biāo)是盡量避免生成冒犯性內(nèi)容,認(rèn)為將創(chuàng)作自由和控制權(quán)交給用戶是正確的,但也會關(guān)注實(shí)際使用情況并聽取社會意見。
Altman希望大家理解,他們在努力平衡自由和責(zé)任的關(guān)系,確保AI的發(fā)展符合大家的期望和道德標(biāo)準(zhǔn)。這些都是老生常談的話。
我覺得,比起它目前的生成能力,更應(yīng)該關(guān)注它為什么要替代DALL·E模型。要知道,DALL·E模型是OpenAI在2021年1月發(fā)布的模型。作為老模型,難道不應(yīng)該持續(xù)迭代,讓它更強(qiáng)大嗎?
實(shí)際上,關(guān)鍵在于DALL-E模型核心架構(gòu)是自回歸模型。
什么是自回歸模型呢?
它利用自身歷史的數(shù)據(jù)來預(yù)測未來的數(shù)據(jù)。工作方式是把圖像拆解為一系列token(類似于文字中的單詞),然后像寫作文一樣,一個token一個token地生成圖像。
舉個例子:
你要畫一只貓,你先畫了貓的頭,然后根據(jù)頭的樣子再畫眼睛,再根據(jù)眼睛和頭的關(guān)系畫鼻子,一步步來,不能跳過任何一個步驟。這就是自回歸模型的工作方法。
優(yōu)點(diǎn)是能保證細(xì)節(jié),缺點(diǎn)很明顯,一,速度跟不上、二,前面要是畫錯了,后面很難調(diào)整;因此,OpenAI選擇用新的模型來替代它。
那么,替代后的模型什么樣呢?答案是非自回歸模型(Non-autoregressive models),它改變了核心架構(gòu)。
這個架構(gòu)會先理解整個圖的結(jié)構(gòu)和細(xì)節(jié),更像學(xué)生先聽完老師講完題目,把整張畫的輪廓搞出來,再一點(diǎn)點(diǎn)填細(xì)節(jié)。比如:畫只貓,先勾勒出貓的外形,再去細(xì)化毛發(fā)、眼睛。
這種模型采用一種特殊的編碼、解碼架構(gòu)來實(shí)現(xiàn)目標(biāo)。簡單來說,編碼器負(fù)責(zé)“讀題”,理解你輸入的文字;解碼器負(fù)責(zé)“作答”,根據(jù)文字生成圖片。
優(yōu)勢在于,一,不再像老方法那樣一步步、逐像素地生成圖像,效率更高,二,整體表現(xiàn)更強(qiáng),特別是在復(fù)雜場景里,能更好地處理多個物體之間的關(guān)系,生成的圖片更逼真。
好比畫一個桌子上有杯子、書本和臺燈的場景,非自回歸模型能更自然地處理東西的位置和光影效果,不會顯得亂七八糟。而且,它對復(fù)雜的文字指令理解得更好,生成的圖片和描述基本能做到符合邏輯。
還有一個特點(diǎn):這種模型靈活性強(qiáng),能融合到多模態(tài)里,比如,把它塞進(jìn)ChatGPT 4.0里,它不僅能看圖,還能結(jié)合音頻或已有的圖像,進(jìn)而生成更多樣化的內(nèi)容。
因此,Open AI這一步本質(zhì)做了一次小小的自我革命。
春節(jié)時,DeepSeek發(fā)布一款文生圖模型Janus-Pro,關(guān)注過的人應(yīng)該知道,它采用了非自回歸的框架。Janus系列中的Janus-Pro-7B模型,在GenEval的準(zhǔn)確率上達(dá)到了80%,甚至超過DALL-E 3的61%。
我查了一下,這種非自回歸模型最早在2018年的ICLR會議上提出,最初應(yīng)用于神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)領(lǐng)域,目的是加速推理速度。
從論文綜述來看,微軟在2022年5月13日進(jìn)行了進(jìn)一步研究。而國內(nèi)2023年左右,阿里巴巴、科大訊飛、昆侖萬維、云從科技等一系列企業(yè)已經(jīng)引入這一技術(shù)。
本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】,微信公眾號:【王智遠(yuǎn)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!