2024 大模型年度五問(wèn):等不來(lái)GPT 5怎么過(guò)?
這一年,AI領(lǐng)域經(jīng)歷了翻天覆地的變化,從大模型的分化發(fā)展到視頻生成技術(shù)的突破,再到AI編程和智能助手的興起,每一項(xiàng)進(jìn)步都在推動(dòng)著我們向更智能的未來(lái)邁進(jìn)。在這篇文章中,我們將回顧2024年AI行業(yè)的五大核心問(wèn)題,這些問(wèn)題不僅定義了今年的技術(shù)趨勢(shì),也為2025年的發(fā)展方向提供了線索。
2024這一年中,我們見(jiàn)證了AI行業(yè)諸多令人興奮,卻又有些坎坷的進(jìn)步。
從跳票一年終亮相的Sora,到o3掀開(kāi)推理側(cè)大發(fā)展的序幕,以及DeepSeek V3帶來(lái)的驚喜與爭(zhēng)議,這一切的繁榮,似乎讓人覺(jué)得AGI似乎就在不遠(yuǎn)的前方。
然而,另一方面,大模型商業(yè)化、落地的困境,卻仍舊沒(méi)有得到解決,眾人期待中的SuperApp,也還是沒(méi)有出現(xiàn)。
與此同時(shí),近乎耗盡的訓(xùn)練數(shù)據(jù),以及Scaling Law 即將“撞墻”的傳聞,也不由讓人對(duì)AI的遠(yuǎn)大前景產(chǎn)生了一絲隱憂。
今天,在2024行將結(jié)束之際,就讓我們一一盤(pán)點(diǎn)今年AI行業(yè)的幾大主要進(jìn)展及趨勢(shì),并通過(guò)5個(gè)核心問(wèn)題,探尋2025年大模型走向何方?
一、要不要做預(yù)訓(xùn)練,Scaling Law是否還有效?
當(dāng)有人質(zhì)疑本次的AI革命,是否會(huì)重蹈前兩次革命失敗的覆轍時(shí),Scaling Law總能讓人拾起信心。
因?yàn)樗尞?dāng)前的AI,找到了一種基于“數(shù)據(jù)-規(guī)模-能力”的正向循環(huán)系統(tǒng)。這也是AI實(shí)現(xiàn)持續(xù)進(jìn)化的根本所在。
然而,這個(gè)讓奇跡不斷涌現(xiàn)的“黃金定律”,今年似乎不再那么靈了。
今年11月,The Information的一份獨(dú)家爆料聲稱(chēng),GPT系列模型改進(jìn)緩慢,下一代旗艦?zāi)P蚈rion并不像前代實(shí)現(xiàn)巨大的飛躍。
這篇文章直擊OpenAI痛點(diǎn),提出Scaling Law逐漸放緩,原因之一是高質(zhì)量文本數(shù)據(jù)越來(lái)越少。
此文一出,AI圈立刻炸了鍋,眾人對(duì)LLM能否通向AGI的質(zhì)疑聲此起彼伏。
然而,沒(méi)過(guò)多久,OpenAI研究員Adam稱(chēng),Scaling剛剛找到了另一套「齒輪」!o1系列模型scaling的兩個(gè)重要維度——訓(xùn)練時(shí)間和測(cè)試(推理)時(shí)間。
一時(shí)間,Scaling的定義似乎悄然發(fā)生了改變,在這個(gè)新的維度,模型性能不再僅僅受限于預(yù)訓(xùn)練階段,現(xiàn)在可以通過(guò)增加推理計(jì)算資源來(lái)提升模型表現(xiàn)。
于是,以o1為代表的,一批試著以“深度推理”改變Scaling范式的大模型紛紛涌現(xiàn)了出來(lái)。
例如,DeepSeek (深度求索)推出了 R1-Lite ;Kimi(月之暗面)推出了主打數(shù)學(xué)能力的推理能力強(qiáng)化模型 k0-math;阿里先后推出 Marco-o1、QwQ 兩款推理模型;昆侖萬(wàn)維推出了 Skywork o1 。
在具備深度推理能力后,大模型的自我反思、學(xué)習(xí)能力提升明顯。
在OpenAI和智譜給出的“通往AGI五階段”的定義中,二者均將多模態(tài)和大語(yǔ)言模型能力歸在L1階段,也就是最為基礎(chǔ)的能力配備。而o1的出現(xiàn),則標(biāo)志著大模型能力突破到了L2階段。
國(guó)產(chǎn)選手里,確實(shí)有不少深度推理類(lèi)大模型,在推理鏈上做了不少功夫,例如R1-Lite這類(lèi)大模型,在處理復(fù)雜問(wèn)題時(shí),思路展示得特別詳細(xì)清晰。
差距最明顯的地方,說(shuō)白了就是”深度”和”連貫性”。
拿數(shù)學(xué)題來(lái)說(shuō),DeepSeek-R1-Lite、K0-math這類(lèi)模型,面對(duì)長(zhǎng)鏈路推理時(shí),模型思維鏈有時(shí)會(huì)失敗,會(huì)承認(rèn)超出能力范圍,但也會(huì)陷入死循環(huán)狀態(tài)。相較之下,o1卻能一口氣推導(dǎo)出8-10個(gè)步驟,而且每步都嚴(yán)絲合縫。
12天春晚發(fā)布的o3,進(jìn)化幅度更是夸張。從 0% 到o1的 5%,整整花了五年的時(shí)間;從o1的 5% 到o3的 87.5%,只花了半年。
GPT 5遲遲不能出現(xiàn)的情況下,大模型在推理側(cè)瘋狂生長(zhǎng)。
二、Sora不如預(yù)期,現(xiàn)實(shí)還能存在多久?
如果要為2024年的大模型,找一個(gè)最耀眼的類(lèi)別,那這樣的桂冠,或許非視頻生成類(lèi)大模型莫屬。
在2024年2月初,OpenAI推出的文生視頻模型Sora,以驚艷的表現(xiàn)震撼了全球科技圈。憑借通過(guò)文字生成高清、流暢視頻的能力,AI讓人們看到了“一鍵生成萬(wàn)千世界”的可能。
當(dāng)時(shí)業(yè)內(nèi)甚至有人認(rèn)為,其對(duì)現(xiàn)實(shí)物理規(guī)律的模擬能力,是打造“世界模型”,并讓人類(lèi)最終通往AGI的途徑之一。
“Sora類(lèi)”模型突破的背后,則是DiT(Diffusion Transformer)架構(gòu)的創(chuàng)新。
DiT架構(gòu)賦予Sora等視頻生成模型前所未有的時(shí)間—空間建模能力,通過(guò)將擴(kuò)散模型的去噪機(jī)制與Transformer的動(dòng)態(tài)特性結(jié)合,提升了視頻生成的連貫性和靈活性,使其能夠高效生成長(zhǎng)時(shí)序、高分辨率且視覺(jué)一致的視頻內(nèi)容。
從字節(jié)跳動(dòng)的“即夢(mèng)”到快手的“可靈”,再到智譜的“清影”,以及后來(lái)MinMax的海螺AI,都代表了國(guó)產(chǎn)文生視頻技術(shù)在這一年迅速發(fā)展。
在眾人對(duì)Sora望眼欲穿的日子里,可靈憑借2分鐘、1080P、每秒30幀的高規(guī)格視頻生成能力,滿足了人們對(duì)文生視頻AI最大的渴望。
然而,興奮之余,務(wù)實(shí)的人們卻發(fā)現(xiàn),大模型商業(yè)化的困境,卻沒(méi)有隨著文生視頻類(lèi)AI的“奇跡”迎刃而解。
雖然在2024年,《山海奇鏡》等AI短劇的出現(xiàn),似乎為這一賽道增添了幾分光彩。
然而,這種由少數(shù)專(zhuān)業(yè)團(tuán)隊(duì)支撐起來(lái)的“奇觀”,影響仍局限在業(yè)內(nèi)的小范圍。
高昂的生成成本、不穩(wěn)定的輸出質(zhì)量,以及有限的應(yīng)用場(chǎng)景,共同構(gòu)成了阻礙文生視頻AI大規(guī)模商業(yè)化的重重屏障。
據(jù)業(yè)內(nèi)調(diào)研顯示,目前5秒左右的高質(zhì)量AI視頻生成成本約為1-3元,但由于AI生成的不穩(wěn)定性,創(chuàng)作者往需要反復(fù)生成,才能得到滿意的結(jié)果。例如《白骨精前傳》的AI短劇作者Danny,就花了五六千塊。
這一成本,仍然令普通的C端用戶望而卻步。
同時(shí),一種AI版的“恐怖谷”效應(yīng),也成了除了直接的技術(shù)外,阻礙AI視頻被大眾接受的“工藝”問(wèn)題。
好在2024年,尚顯稚嫩的視頻AI,仍在蹣跚學(xué)步,但12月份Sora的正式發(fā)布,以及可靈1.6和Google Veo 2給這一片惆悵的灰色中,增加了一抹新的色彩。
在12月的“12 Days of OpenAI”活動(dòng)期間,OpenAI終于宣布推出“鴿”了10個(gè)月之久的Sora模型,相比于早期版本,Sora Turbo的生成效率大幅提升。
Sora在模型端的表現(xiàn)并不令人驚喜,甚至比國(guó)產(chǎn)的沒(méi)有表現(xiàn)更好。但其對(duì)視頻的可編輯性,對(duì)Sora類(lèi)工具走向?qū)嶋H應(yīng)用的產(chǎn)品化,邁出了重要一步。這樣的收尾,總算是給不太圓滿的視頻AI,在年末畫(huà)上了一個(gè)振奮人心的句號(hào)。
三、AI coding興起,程序員會(huì)失業(yè)嗎?
回望2024年AI編程領(lǐng)域的變化,一個(gè)最矚目的問(wèn)題是:AI真的會(huì)取代程序員嗎?
2024年,隨著 AI編程領(lǐng)域開(kāi)始從Copilot向Agent轉(zhuǎn)型,對(duì)專(zhuān)業(yè)開(kāi)發(fā)者而言,AI將逐步承擔(dān)代碼測(cè)試、審查和遷移等重復(fù)性工作,提高開(kāi)發(fā)效率。
而在眾多涌現(xiàn)的AI編程工具中,Cursor則像一匹黑馬,憑借AI驅(qū)動(dòng)的智能代碼助手和用戶友好的工具界面迅速躥紅,甚至引發(fā)了行業(yè)內(nèi)對(duì)AI代理未來(lái)可能性的討論。
這個(gè)4名本科生打造的編程“神器”Cursor,年化收入已經(jīng)達(dá)到了6500萬(wàn)美元。
要說(shuō)Cursor為什么這么火,其實(shí)答案很簡(jiǎn)單:它抓住了開(kāi)發(fā)者真正需要的東西,同時(shí)又做得特別聰明、特別到位。
和傳統(tǒng)的代碼編輯器比起來(lái),它直接就把AI變成了開(kāi)發(fā)過(guò)程的核心助手。你不用再花時(shí)間到處找插件、改配置,從代碼補(bǔ)全到自動(dòng)生成邏輯,全都內(nèi)置搞定。
同樣地,OpenAI的Canvas也是今年的重頭戲之一。Canvas基于GPT-4o,為用戶提供了一個(gè)專(zhuān)門(mén)的協(xié)作平臺(tái)。其最大的亮點(diǎn)是透明化了代碼修改的過(guò)程,程序員不僅能看到改動(dòng)的細(xì)節(jié),還能通過(guò)自然語(yǔ)言指令快速優(yōu)化代碼結(jié)構(gòu)。
而谷歌的Jules則瞄準(zhǔn)了更深層次的編程應(yīng)用。這款工具不僅結(jié)合了Google的Gemini 2.0模型和深度代碼分析能力,自動(dòng)生成解決方案,甚至可以與GitHub等平臺(tái)無(wú)縫集成,完成從需求分析到代碼實(shí)現(xiàn)的全流程。
要說(shuō)今年的AI編程,為何取得了如此大的進(jìn)展,那恐怕要?dú)w功于ReAct(Reasoning and Acting)框架的突破。
這是讓AI編程助手實(shí)現(xiàn)從”輔助”到”自主”轉(zhuǎn)變的關(guān)鍵技術(shù)。它通過(guò)將推理(Reasoning)和行動(dòng)(Acting)緊密結(jié)合,建立了一套”思考-行動(dòng)-反饋”的循環(huán)機(jī)制,讓AI首次具備了真正的問(wèn)題解決能力,而不是簡(jiǎn)單的模式匹配和代碼生成。
在這樣的突破下,有人調(diào)侃,有了AI,將來(lái)寫(xiě)代碼就像聊天一樣簡(jiǎn)單,用自然語(yǔ)言說(shuō)出需求,AI就能給你一套解決方案。AI似乎正在把軟件開(kāi)發(fā)這個(gè)高大上的領(lǐng)域,變得像做PPT一樣簡(jiǎn)單。
這樣的進(jìn)步,讓人產(chǎn)生了一種“將來(lái)程序員都要失業(yè)了”的錯(cuò)覺(jué),確實(shí),AI現(xiàn)在幫我們搞定了很多從前費(fèi)時(shí)費(fèi)力的活兒,但在專(zhuān)業(yè)的業(yè)內(nèi)大佬看來(lái),AI Coding 雖然功能強(qiáng)大,但偶爾生成的邏輯會(huì)讓人覺(jué)得“AI還在學(xué)走路”。
就連谷歌CEO劈柴也承認(rèn):”所有AI代碼都必須經(jīng)過(guò)工程師的“人工”審核和驗(yàn)收”。盡管如此,今年的AI Coding,確實(shí)打開(kāi)了想象的空間,讓軟件開(kāi)放從“純?nèi)四X的作品”開(kāi)始逐漸變成“人與機(jī)器協(xié)作的產(chǎn)物”。
四、真Siri來(lái)臨,能開(kāi)啟智能硬件第二春?
2024年的語(yǔ)音AI發(fā)展,用一種革命性的方式,重新定義了人機(jī)交互范式。
回想《Her》里那個(gè)溫暖有感情的虛擬助手Samantha,不少人曾以為這是遙不可及的幻想。
但今年,OpenAI的GPT-4o、科大訊飛的星火模型、字節(jié)跳動(dòng)的豆包,還有智譜清言等,都在用各自的技術(shù)證明,這種科幻的想象,現(xiàn)在真的照進(jìn)了現(xiàn)實(shí)。
與傳統(tǒng)的TTS(文本到語(yǔ)音轉(zhuǎn)換)技術(shù)相比,像GPT-4o這樣的新一代端到端語(yǔ)音大模型的最大亮點(diǎn),就在于它能“懂場(chǎng)合”、“通人性”。
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)的TTS技術(shù)多半是以靜態(tài)規(guī)則為主,比如為特定句子設(shè)計(jì)語(yǔ)調(diào)模板,但GPT-4o這樣端到端語(yǔ)音模型,不僅能通話中實(shí)時(shí)做到感知上下文,且能靈活選擇聲音的節(jié)奏、語(yǔ)氣,甚至能被打斷和停頓。
有了這種更“人性”的特點(diǎn)后,各個(gè)AI企業(yè)各顯高招,從總體上看,實(shí)時(shí)語(yǔ)音AI的賽道,在2024年,大致呈現(xiàn)出了“多語(yǔ)言”、“個(gè)性化”的特點(diǎn)。
例如科大訊飛的星火大模型4.0 Turbo,不僅支持74種語(yǔ)言和方言,還引入了“超擬人”特性,通過(guò)個(gè)性化定制功能,讓用戶可以和AI助手形成更貼近現(xiàn)實(shí)的交流方式。
雖然在2024年,語(yǔ)音AI已經(jīng)讓人覺(jué)得“科幻照進(jìn)現(xiàn)實(shí)”,但這個(gè)“現(xiàn)實(shí)”還有點(diǎn)“昂貴”。
從行業(yè)角度看,這波實(shí)時(shí)語(yǔ)音AI的競(jìng)爭(zhēng),比拼的其實(shí)是”算力經(jīng)濟(jì)學(xué)”。
為了應(yīng)對(duì)實(shí)時(shí)語(yǔ)音的高昂成本,聰明的公司開(kāi)始搞”算力分層”。簡(jiǎn)單對(duì)話用輕量級(jí)模型,復(fù)雜問(wèn)題才上重型火力。
這也是為什么,在視頻通話這種場(chǎng)景下,如果涉及到多模態(tài)交互,尤其是需要結(jié)合視覺(jué)線索或復(fù)雜上下文理解的時(shí)候(例如長(zhǎng)文章或代碼),語(yǔ)音AI的表現(xiàn)也常常不如文本模式下的大語(yǔ)言模型——回復(fù)的深度和質(zhì)量會(huì)明顯遜色。
總體來(lái)說(shuō),當(dāng)前的語(yǔ)音AI,雖然給了行業(yè)驚鴻一瞥的驚喜,但要真正成為一個(gè)得力的智能助手,它需要的不只是更流利的語(yǔ)音,而是多項(xiàng)功能的整合。
五、AI Agent,噱頭還是即將落地?
2024年的AI Agent,不再僅僅是大模型的附屬品,而是開(kāi)始以獨(dú)立角色,重新定義智能交互的邊界。
像智譜的AutoGLM、Anthropic的Claude Computer Use,榮耀的手機(jī)AI助手,以及谷歌剛剛在年末發(fā)布的瀏覽器Agent助手Project Mariner等,正在逐漸將科幻里的“萬(wàn)能助手”變成現(xiàn)實(shí)。
從總體上看,今年的AI Agent,大致呈現(xiàn)出了兩個(gè)方面的特征:
一是跨APP的Agent能力更強(qiáng)
以前一直有句話叫App墻,不同APP直接難以逾越。
現(xiàn)在這種“執(zhí)行層”的變革,讓AI擺脫了傳統(tǒng)APP間的界限,使未來(lái)一種統(tǒng)領(lǐng)“千百APP”的超級(jí)應(yīng)用成為了可能;
以谷歌的Project Mariner為例,這款瀏覽器Agent可以理解和操作網(wǎng)頁(yè)上的所有元素,包括文本、代碼、圖片和表單。它不只是單純?yōu)g覽,而是能夠完成從信息搜索到購(gòu)買(mǎi)、表單填寫(xiě)等一系列操作。
而Anthropic的Claude Computer Use,則專(zhuān)注于電腦端操作,能用鼠標(biāo)和鍵盤(pán)模擬用戶行為,完成文件編輯和多程序協(xié)作。二者都展示了Agent在處理復(fù)雜的多模態(tài)任務(wù)時(shí),進(jìn)行多種工具調(diào)用的適配能力。
二就是CUI時(shí)代漸漸來(lái)臨
一句話點(diǎn)200杯咖啡,一句話發(fā)2萬(wàn)的紅包。
像智譜的AutoGLM,以及榮耀的手機(jī)AI助手,可以通過(guò)簡(jiǎn)單的語(yǔ)音指令完成手機(jī)端和跨APP的復(fù)雜任務(wù),比如訂咖啡、對(duì)比航班價(jià)格甚至建群發(fā)紅包。
如今,正從GUI(圖形用戶界面)向CUI(對(duì)話式用戶界面)時(shí)代轉(zhuǎn)變。
蘋(píng)果在對(duì)GUI的巨大貢獻(xiàn),引發(fā)了一場(chǎng)交互革命,如今AI公司正在引發(fā)新的交互顛覆性創(chuàng)新。
此外,2024年的AI Agent技術(shù),帶來(lái)的另一個(gè)驚喜,是AI在游戲行業(yè)的突破。
尤其是網(wǎng)易伏羲在《永劫無(wú)間》手游和騰訊的《暗區(qū)突圍》的AI隊(duì)友,在結(jié)合了多模態(tài)技術(shù)后,已經(jīng)不僅僅是傳統(tǒng)意義上的“NPC”,而是一個(gè)能聽(tīng)懂語(yǔ)音指令、實(shí)時(shí)調(diào)整策略、甚至和玩家情感互動(dòng)的“智能隊(duì)友”。
這些突破性的應(yīng)用,讓AI不再只是游戲中的“工具”,而是玩家的真正伙伴。
從趨勢(shì)來(lái)看,AI Agent正在向多模態(tài)能力和更深層次的智能化發(fā)展。
結(jié)合視覺(jué)、語(yǔ)音、文本等多模態(tài)信息,它們能夠更全面地理解用戶需求,并從一個(gè)“對(duì)話工具”成長(zhǎng)為“得力助手”,逐漸正帶領(lǐng)我們進(jìn)入一個(gè)更加無(wú)縫和高效的智能時(shí)代。六、結(jié)語(yǔ)
在這個(gè)充滿變數(shù)與驚喜的2024年,AI就像一個(gè)正在成長(zhǎng)的孩子——有時(shí)笨拙,有時(shí)驚艷,但始終充滿無(wú)限可能。
盡管道路上有數(shù)據(jù)枯竭的憂慮,有商業(yè)化的陣痛,有技術(shù)的不完美。大模型支撐著AI原生應(yīng)用高速發(fā)展,2025年被譽(yù)為AI發(fā)展元年,未來(lái)會(huì)越來(lái)越精彩。
作者|林書(shū) 編輯丨楊曉鶴
本文由人人都是產(chǎn)品經(jīng)理作者【AI鯨選社】,微信公眾號(hào):【AI鯨選社】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!