97超视频在线观看视频，国产一级一片免费播放放a，亚洲中文字幕无码不卡电影，成人免费va视频无码，青草青草久热精品视频观看，色欲色欲w:ww在线看，日本人妖在线专区，超清无码波多野吉衣中文

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

GPT-4o怎么搶了Midjourney的飯碗

腦極體

2025-04-14

1 評(píng)論 1406 瀏覽 2 收藏

16 分鐘

GPT-4o憑借其低使用門檻、強(qiáng)大的修圖改圖能力以及跨學(xué)科知識(shí)儲(chǔ)備，成功挑戰(zhàn)了文生圖領(lǐng)域的專業(yè)選手。本文將深入探討GPT-4o如何在短時(shí)間內(nèi)搶奪了Midjourney的市場(chǎng)份額，以及這一變化背后的技術(shù)突破和市場(chǎng)影響，揭示GPT-4o如何通過(guò)自然語(yǔ)言對(duì)話能力、多模態(tài)功能和跨學(xué)科知識(shí)儲(chǔ)備，為用戶帶來(lái)更高效、更精準(zhǔn)的AI繪圖體驗(yàn)。

2025年3月26日，OpenAI凌晨官宣，GPT-4o的原生多模態(tài)圖像生成功能正式上線。用戶不再需要登錄OpenAI的文生圖模型DALL-E，可以直接在ChatGPT應(yīng)用里調(diào)用4o生成、修改圖片。

一夜之間，AI生成的吉卜力圖像在X等社交媒體上瘋傳，互聯(lián)網(wǎng)被一場(chǎng)溫柔的二次元畫風(fēng)浪潮淹沒(méi)。人們上傳自拍照，輸入“吉卜力風(fēng)格”，幾秒后，宮崎駿動(dòng)畫中的唯美與夢(mèng)幻便流淌在發(fā)絲衣角間，甚至連OpenAI創(chuàng)始人奧特曼也曬出自己的吉卜力頭像，為這場(chǎng)熱潮添了一把火。

不過(guò)，吉卜力的火爆只是其一，更關(guān)鍵的是，GPT-4o的繪圖能力出圈打破了文生圖領(lǐng)域的固有格局，以Midjourney等垂類應(yīng)用為首的賽道第一次遭到了大模型的挑戰(zhàn)。

原來(lái)，人們用Midjourney生圖時(shí)，仍面臨著一個(gè)致命問(wèn)題：隨機(jī)性太強(qiáng)，在提示詞過(guò)于復(fù)雜的時(shí)候，細(xì)節(jié)還原度就會(huì)顯著降低，而GPT-4o控圖能力的躍升，讓人類第一次感受到了與AI藝術(shù)家在多輪對(duì)話中精準(zhǔn)改圖的魅力。

那么，一個(gè)人類印象里只會(huì)聊天的通用大模型GPT-4o，是如何趕超文生圖領(lǐng)域?qū)I(yè)選手Midjourney的呢？

一、全能畫手

實(shí)際上，類似Midjourney一樣的應(yīng)用早在一年前就能生成吉卜力、賽博朋克、超現(xiàn)實(shí)等多種風(fēng)格的圖像，甚至在畫面細(xì)膩感、解析力上略勝于GPT-4o。但GPT-4o的聰明之處在于，它沒(méi)有選擇正面硬剛其藝術(shù)領(lǐng)域的生圖質(zhì)量，而是在應(yīng)用門檻、修圖改圖、跨學(xué)科能力等細(xì)分賽道彎道超車。

一是自然語(yǔ)言對(duì)話能力的提升大大降低了使用門檻。傳統(tǒng)文生圖領(lǐng)域，用戶必須掌握一套復(fù)雜的結(jié)構(gòu)化提示指令，比如風(fēng)格、鏡頭、色彩、角度、背景、主體等，差之毫厘、謬以千里。而GPT-4o可以精準(zhǔn)理解自然語(yǔ)言命令，只需要像跟好友一樣交流，張嘴畫圖成為現(xiàn)實(shí)。

自然語(yǔ)言就是大白話，日常生活中的口頭語(yǔ)。比如，如果你需要一張瀑布圖，只需要告訴GPT-4o，“幫我生成一幅清晨茂密森林里的彩虹瀑布”就可以了。但面對(duì)Midjourney就需要像下圖一般，用高度結(jié)構(gòu)化的prompt指令告訴它：這個(gè)圖像的主體有什么，背景是什么顏色，仰角、俯角還是平視，風(fēng)格是油畫、古典或者賽博朋克，需要細(xì)分到這種程度才可能達(dá)到理想效果，但就算分得這么細(xì)了，依然會(huì)有一些無(wú)關(guān)緊要的畫面元素跳出來(lái)畫蛇添足。

二是多模態(tài)能力帶來(lái)的圖生圖、圖改圖功能的上線。類似Midjourney一樣的應(yīng)用只能發(fā)文字指令，不支持上傳一張圖片再做修改，或者說(shuō)不支持AI生圖后，再調(diào)整圖像的分辨率、色彩、背景。如果成圖效果不理想，只能回到第一步重寫提示詞碰運(yùn)氣，之前生成的圖像等同作廢。

GPT-4o的強(qiáng)悍就在于用戶可以隨便上傳一張圖片多次修改，可以是AI生成的，也可以是自己拍的。比如，你可以上傳一張全身照，把頭型換成大波浪，把衣服換成購(gòu)物車?yán)锏娜棺涌瓷仙硇Ч?。它支持在現(xiàn)有的圖片上去p圖去修改，相當(dāng)于我們不用學(xué)習(xí)PS這種具有高壁壘性質(zhì)的修圖技術(shù)。

更牛的是它還可以多輪對(duì)話，支持在原圖上不限次數(shù)地一直改，直到滿意為止。你可以一會(huì)兒改一個(gè)頭發(fā)，一會(huì)兒把背景換成沙漠，或者一會(huì)兒調(diào)整濾鏡風(fēng)格。只要你想，它便滿足。

圖源：小紅書@Mr.湯先森

除了交互門檻的降低和控圖能力的提升，GPT-4o的跨學(xué)科知識(shí)儲(chǔ)備也讓人驚艷。集成了大語(yǔ)言模型原有知識(shí)庫(kù)的GPT-4o相當(dāng)于一個(gè)知天文、曉地理的畫家，不僅能解高數(shù)、做物理題，還原建筑草圖也不在話下。相比之下，Midjourney作為垂類應(yīng)用始終局限在藝術(shù)領(lǐng)域里，為電影宣發(fā)、廣告等文娛產(chǎn)業(yè)服務(wù)。

GPT-4o有多牛？給一個(gè)題目就可以生成函數(shù)圖像，相當(dāng)于一款畫圖指導(dǎo)版的拍照搜題應(yīng)用。甚至于你給他一個(gè)沒(méi)有任何色彩的鉛筆畫建筑草圖，它都能生成出施工后的房屋實(shí)景，完全跨越了學(xué)科的邊界，是一個(gè)文理雙全的全能型選手。

圖源：小紅書@云安

既然GPT-4o生圖改圖功能如此驚艷，我們就要發(fā)問(wèn)了，在其火爆出圈背后，能夠?yàn)槠胀ㄈ藥?lái)什么實(shí)際價(jià)值呢？

二、超越藝術(shù)，GPT-4o的更多實(shí)用性

就在其上線一周內(nèi)，Midjourney CEO大衛(wèi)·霍爾茲坐不住了，發(fā)文稱：GPT-4o只是花架子，Midjourney-v7下周上線。

GPT-4o和Midjourney孰優(yōu)孰劣，現(xiàn)在還難以定論。但能夠肯定的是，GPT-4o火出圈了，它沖出了設(shè)計(jì)師這個(gè)小眾的圈子，走入了大多數(shù)人的工作場(chǎng)景里，就算完全不知道AI生圖是什么，但一定也知道社交媒體上突然冒出一個(gè)能用嘴P圖的網(wǎng)絡(luò)工具。

那么，GPT-4o為什么這么火，給我們帶來(lái)的一個(gè)最實(shí)際的價(jià)值點(diǎn)在哪里？

首先，它真的做到了應(yīng)用零門檻，用戶甚至不需要任何藝術(shù)功底和AI基礎(chǔ)，毫無(wú)基礎(chǔ)的普通人也能直接上手。用Midjourney，你必須知道一些基本的流派、色彩、光學(xué)、框架等繪畫知識(shí)以及/imagine（生成圖像）、–ar（圖像寬高比）等基礎(chǔ)英文提示指令。但用GPT-4o，你也可以不懂透視、框架、光線，也不需要知道什么是結(jié)構(gòu)化提示詞，完全不用任何專業(yè)基礎(chǔ)，就像跟朋友對(duì)話一般交流就可以修圖。

圖源：小紅書@Geek4Fun

除了使用門檻降低，模型產(chǎn)品的質(zhì)量和效能也大幅提升。一是生圖更快，以前用Midjourney解析復(fù)雜指令需要1min左右，GPT-4o在20s內(nèi)就可以還原。

第二，生圖和改圖的控制性提高了，GPT-4o能夠完全還原你給它的指令。比如同樣的一個(gè)指令“給我生成一個(gè)貓貓和狗狗在草地里玩耍的場(chǎng)景”，GPT-4o生成的就是一只貓和一只狗在草地上玩，沒(méi)有任何其他會(huì)突然冒出的元素，但Midjourney可能在草坪上多一個(gè)公園或建筑，不會(huì)完全按指令來(lái)。通俗地講，就是GPT-4o更能聽你的人話了，它就像你的電子仆人一樣，你讓他干嘛，他就干嘛，多余的事一件不做，該做的事也絕不少干，精確度更強(qiáng)了。

由此，GPT-4o打開全民賽道，進(jìn)入到我們工作場(chǎng)景里。之前，普通用戶用Midjourney更多還是出于興趣，娛樂(lè)屬性強(qiáng)、工具屬性弱。生成的油畫、動(dòng)漫等各種風(fēng)格的圖像雖好看，但既不能提升工作效率，也不能賺錢，主要起到了一個(gè)造型上的作用。

而GPT-4o的用嘴P圖讓AI繪圖能夠落地的行業(yè)增多，從娛樂(lè)化與藝術(shù)性走向了專業(yè)化與生產(chǎn)力，可以應(yīng)用到電商、教育、建筑、設(shè)計(jì)等各行各業(yè)。比如你的小孩不會(huì)做題，以前需要請(qǐng)教課老師或者下載作業(yè)幫，輔導(dǎo)費(fèi)用貴而作業(yè)幫的講解只有干巴巴的一段文字，令人費(fèi)解。但是GPT-4o完全可以生成一張講解草稿圖，函數(shù)怎么生成的，答案怎么得來(lái)的，推導(dǎo)過(guò)程流暢自然。

再比如電商行業(yè)的宣傳海報(bào)，甲方需要你生成一個(gè)針對(duì)歐美市場(chǎng)的英語(yǔ)海報(bào)，其中設(shè)計(jì)元素和語(yǔ)言都需要做本地化潤(rùn)色。之前的流程是對(duì)接設(shè)計(jì)師修改元素、去翻譯軟件潤(rùn)色，再導(dǎo)入PS軟件修改，費(fèi)時(shí)費(fèi)力。但現(xiàn)在GPT-4o只需要一句話，“把這張海報(bào)改成歐美風(fēng)，語(yǔ)言變成英語(yǔ)”，它就很快就能設(shè)計(jì)一張符合要求的海報(bào)，跨領(lǐng)域跨學(xué)科的集成能力非常強(qiáng)悍。

三、不止繪畫，大模型的下一站是集成式平臺(tái)

聊完GPT-4o的畫圖出圈，不如再聊聊，GPT-4o作為一種底層模型還有什么可挖掘的地方。

我們都知道，Midjourney是一個(gè)架構(gòu)在模型上的應(yīng)用，但GPT-4o本身就是一個(gè)模型，生圖是它的能力之一。2022年剛出道的ChatGPT只是一個(gè)能夠文字交流的對(duì)話助手，后來(lái)可以語(yǔ)音打電話，現(xiàn)在又能畫圖，一直不停在不同維度上迭代升級(jí)。

而此次GPT-4o能繪圖賽道突出重圍，真要感謝其原生多模態(tài)模型能力的大幅涌現(xiàn)。跟Midjourney不一樣，GPT-4o有更多技術(shù)路徑可走?，F(xiàn)在文生圖領(lǐng)域應(yīng)用普遍用的底層模型叫擴(kuò)散模型diffusion model，原理是先生成一個(gè)大概的圖像，再消除噪點(diǎn)，就像雪中作畫、霧里看花，還原能力不強(qiáng)。而GPT-4o沿用文生圖自回歸模型，相當(dāng)于把之前預(yù)測(cè)token的邏輯推理能力進(jìn)一步延伸到了文生圖領(lǐng)域，通過(guò)逐幀繪制的方式，從已生成的像素推測(cè)下一個(gè)像素，本質(zhì)是模仿人類畫畫。這意味著，與垂類應(yīng)用不同，大模型可以從底層架構(gòu)上選擇不同的技術(shù)路徑，而架構(gòu)的升級(jí)通常會(huì)帶來(lái)性能的躍升，基于GPT-4o等原生模型的功能有更多的生長(zhǎng)空間。

第二個(gè)是，多模態(tài)融合會(huì)帶來(lái)跨領(lǐng)域的融會(huì)貫通，GPT-4o作為一種通用大模型，擁有整合文字、音頻、圖像等不同格式信息的能力，現(xiàn)階段已經(jīng)可以打電話、生圖改圖了。而在未來(lái)，是不是可以直接生成音樂(lè)和視頻，也值得期待。實(shí)際上，GPT-4o本次上線的生圖功能就脫胎于OpenAI的文生圖模型DALL-E。或許，OpenAI旗下的文生視頻模型Sora也可能通過(guò)某種技術(shù)被整合到GPT模型里。屆時(shí)，在一個(gè)模型里交叉處理多種模態(tài)的信息將不再遙遠(yuǎn)。

而多模態(tài)創(chuàng)新也進(jìn)一步說(shuō)明，模型走向多功能后，處理各種任務(wù)的能力越來(lái)越強(qiáng)，帶來(lái)的總AI使用成本降低。一個(gè)可以預(yù)見(jiàn)的趨勢(shì)是，大模型正在試圖成為一個(gè)一站式打包站點(diǎn)，將代碼、設(shè)計(jì)、音樂(lè)、數(shù)據(jù)處理等多種任務(wù)集成在一起?？赡茉谖磥?lái)某一天，類似于ChatGPT一樣的模型強(qiáng)悍到在任何領(lǐng)域都能做到前三，我們也不再需要下載畫圖的Midjourney、寫代碼的coze、做音樂(lè)的suno等垂類應(yīng)用，直接下載類似于ChatGPT一樣的模型，就能解決所有的事情。這樣一來(lái)，手機(jī)的內(nèi)存更大了，運(yùn)行效率也快了。每個(gè)月還可以省下了垂類應(yīng)用一百塊左右的會(huì)員定制費(fèi)，性價(jià)比更高了。

簡(jiǎn)言之，GPT-4o繪圖能力的出圈讓我們看到了底層大模型集成多應(yīng)用的能力。而從這個(gè)能力衍生出的愿景是，我們未來(lái)可以在一個(gè)一站式的模型里面同時(shí)使用繪畫、音樂(lè)、代碼等多維能力。并且，它的使用門檻是非常低的，低到任何一個(gè)毫無(wú)技術(shù)基礎(chǔ)，甚至連AI都不了解的人都能用。

而這或許才是人類發(fā)明AI的終極目標(biāo)——讓技術(shù)普惠到每一個(gè)角落。

本文由人人都是產(chǎn)品經(jīng)理作者【腦極體】，微信公眾號(hào)：【腦極體】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App