色五月激情中文字幕，欧美一级亚洲欧洲日本，欧美亚洲色综久久精品国产，国产av巨作情欲放纵无码，最新亚洲人成无码专区，国产一级毛卡片视频a，91久久精品一区二区三区色欲，中文字幕玖玖资源亚洲精品

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

歷時(shí)400多天，國(guó)產(chǎn)大模型全面趕超GPT-4？

Alter

2024-05-10

0 評(píng)論 2224 瀏覽 1 收藏

11 分鐘

趕超GPT-4的階段性升級(jí)，可以看作是國(guó)產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志，切莫像手機(jī)跑分那樣，在過(guò)度營(yíng)銷(xiāo)的作用下，淪為被群嘲的對(duì)象。

稍微留意下近期的新聞，“趕超GPT-4”正在成為國(guó)產(chǎn)大模型的新熱點(diǎn)。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問(wèn)2.5，均已邁入“全面趕超GPT-4”陣營(yíng)。

把時(shí)間線(xiàn)稍微拉長(zhǎng)一些的話(huà)，過(guò)去大半年時(shí)間里，“超越GPT-4”的消息可謂屢見(jiàn)不鮮，即使在報(bào)道中刻意加上了多項(xiàng)基準(zhǔn)、部分指標(biāo)等前綴，依然賺足了眼球，成為國(guó)產(chǎn)大模型佐證自身能力的有力指標(biāo)。

簡(jiǎn)單做個(gè)復(fù)盤(pán)的話(huà)，國(guó)產(chǎn)大模型對(duì)GPT-4的追趕已經(jīng)進(jìn)行了400多天，其中“趕超進(jìn)程”可以粗分為三個(gè)階段。

第一階段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼時(shí)大多數(shù)國(guó)產(chǎn)大模型還未開(kāi)放，少數(shù)內(nèi)測(cè)大模型的比較對(duì)象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4，就像是科幻照進(jìn)了現(xiàn)實(shí)，被無(wú)數(shù)人捧上神壇。

但在短短半年后，GPT-4就出現(xiàn)在了國(guó)產(chǎn)大模型廠商的比較名單里。

2023年8月底，商湯科技對(duì)外公布了一則新進(jìn)展：擁有1230億個(gè)參數(shù)的“書(shū)生·浦語(yǔ)”，在全球51個(gè)知名評(píng)測(cè)集共計(jì)30萬(wàn)道問(wèn)題集合上，測(cè)試成績(jī)排名全球第二，并在綜合考試agieval、知識(shí)問(wèn)答commonsenseqa、閱讀理解和推理的十項(xiàng)評(píng)測(cè)中位列第一，分?jǐn)?shù)超過(guò)風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來(lái)”發(fā)布會(huì)上，百度正式發(fā)布了文心大模型4.0版本，李彥宏在現(xiàn)場(chǎng)依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點(diǎn)與應(yīng)用場(chǎng)景。

盡管沒(méi)有給出評(píng)測(cè)數(shù)據(jù)，李彥宏卻自信地表示：文心大模型4.0的綜合水平，“與GPT-4相比毫不遜色”。

國(guó)產(chǎn)大模型趕超GPT-4的序幕正式拉開(kāi)。

此后一兩個(gè)月里，不少大模型給了這樣的營(yíng)銷(xiāo)口徑：整體能力已經(jīng)不輸于GPT-3.5，并且在部分性能指標(biāo)上開(kāi)始超越GPT-4。

第二階段：整體性能逼近GPT-4

時(shí)間來(lái)到2024年初，國(guó)內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期，一些不被資本市場(chǎng)認(rèn)可的大模型，漸漸成了一個(gè)數(shù)字，只有幾家科技大廠和獨(dú)角獸仍活躍在大模型一線(xiàn)。

“活下來(lái)”的大模型，勢(shì)必要在能力上證明自己。

綜合性能逼近GPT-4，開(kāi)始成為新的營(yíng)銷(xiāo)話(huà)術(shù)。

2024年1月中旬的智譜AI技術(shù)開(kāi)放日上，正式發(fā)布了新一代基座大模型GLM-4。

按照智譜AI官方的說(shuō)法：在權(quán)威的英文測(cè)試榜單中，GLM-4已經(jīng)整體逼近GPT-4，平均能達(dá)到GPT-4 90%以上的水平，在個(gè)別項(xiàng)目上表現(xiàn)持平；而在國(guó)內(nèi)企業(yè)更加看重的中文任務(wù)上，GLM-4的表現(xiàn)全面超過(guò)GPT-4。

同樣是在2024年1月，科大訊飛發(fā)布了星火認(rèn)知大模型V3.5，在邏輯推理、語(yǔ)言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升，其中語(yǔ)言理解、數(shù)學(xué)能力已經(jīng)超過(guò)GPT-4 Turbo，代碼能力達(dá)到GPT-4 Turbo 96%，多模態(tài)理解達(dá)到GPT-4V 91%?！霸谥形睦斫夥矫?，甚至遙遙領(lǐng)先?！?/p>

回頭來(lái)看，智譜AI和科大訊飛的營(yíng)銷(xiāo)策略還是有些“保守”，百川智能在同一時(shí)間段發(fā)布的Baichuan 3，對(duì)外表示已經(jīng)在CMMLU、GAOKAO等中文評(píng)測(cè)中超越GPT-4。

第三階段：全面趕超GPT-4

Turbo2023年11月的OpenAI首屆開(kāi)發(fā)者大會(huì)，GPT-4 Turbo可以說(shuō)整個(gè)活動(dòng)的焦點(diǎn)，不僅比GPT-4更聰明，文本處理的上限更高，推理的速度更快，價(jià)格也更便宜，國(guó)產(chǎn)大模型隨即迎來(lái)了新的比較對(duì)象。

先是2024年4月份發(fā)布的日日新5.0，擁有6000億參數(shù)，并在發(fā)布會(huì)上引用了OpenCompass的評(píng)測(cè)數(shù)據(jù)：日日新5.0達(dá)到或超越了GPT-4 Turbo版本，幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問(wèn)2.5，根據(jù)媒體報(bào)道中的說(shuō)法：模型性能全面趕超GPT-4-Turbo，成為“地表最強(qiáng)”中文大模型；通義千問(wèn)1100億參數(shù)開(kāi)源模型在多個(gè)基準(zhǔn)測(cè)評(píng)收獲最佳成績(jī)，超越Meta的Llama-3-70B，成為開(kāi)源領(lǐng)域最強(qiáng)大模型。

可以篤定的是，日日新5.0和通義千問(wèn)2.5只是個(gè)開(kāi)始，后續(xù)將有更多國(guó)產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息，將全面對(duì)標(biāo)GPT-4系列；文心一言4.0的發(fā)布已經(jīng)超過(guò)半年，不排除新版本正在準(zhǔn)備中，且大概率會(huì)在性能上再上一個(gè)臺(tái)階……

“跑分”的意義在哪里？

不管是一開(kāi)始的“部分性能超越”，還是現(xiàn)在進(jìn)行中的“全面趕超”，依據(jù)都是第三方評(píng)測(cè)結(jié)果，或者說(shuō)大模型廠商的主觀判斷。比如商湯和阿里云爭(zhēng)相引用的OpenCompass，就是上海人工智能實(shí)驗(yàn)室開(kāi)源的大模型評(píng)測(cè)平臺(tái)。

對(duì)于一些大模型沉迷于刷榜、跑分的現(xiàn)象，上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪(fǎng)中直言：通過(guò)題海戰(zhàn)術(shù)提高大模型成績(jī)，對(duì)于模型實(shí)際能力的反應(yīng)是失真的，影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地，“高分低能”傷害的是機(jī)構(gòu)本身；榜單上任何具體的名字只是大模型成長(zhǎng)過(guò)程中無(wú)數(shù)次測(cè)試中的一次，一時(shí)的排名高低并不真正反映模型的能力。

何況很多大模型測(cè)試集為了公開(kāi)透明，測(cè)試題目或者提綱都是公開(kāi)的，大模型廠商不難通過(guò)“針對(duì)性的訓(xùn)練”來(lái)提高分?jǐn)?shù)。只要將足夠的的測(cè)試題喂給大模型，在開(kāi)卷考試的機(jī)制下，分?jǐn)?shù)總不會(huì)太低。也就是說(shuō)，分?jǐn)?shù)高并不一定代表大模型的能力強(qiáng)。

“跑分”的意義僅僅是讓客戶(hù)或開(kāi)發(fā)者對(duì)大模型能力有一個(gè)初步的認(rèn)識(shí)，最終的評(píng)估因素永遠(yuǎn)是“能不能解決問(wèn)題”，“能不能在場(chǎng)景中帶來(lái)實(shí)實(shí)在在的生產(chǎn)力”。特別是在大模型走向落地應(yīng)用的趨勢(shì)下，一味炒作“超越GPT-4”、“跑分第一”，妄顧落地應(yīng)用的實(shí)效，可能會(huì)適得其反。

以大模型應(yīng)用中比較常見(jiàn)的財(cái)報(bào)分析為例，如果大模型連一家企業(yè)的財(cái)報(bào)都看不懂，再高的計(jì)算分?jǐn)?shù)也不會(huì)讓客戶(hù)信服，反而會(huì)被排除在合作名單外。

而參考中信證券等機(jī)構(gòu)的研究報(bào)告，目前OpenAI的GPT-5正處于紅隊(duì)測(cè)試階段，有望在今年夏天正式發(fā)布，可能在多模態(tài)理解、長(zhǎng)文本輸入、zero-shot學(xué)習(xí)等方面實(shí)現(xiàn)重大突破，且性能將遠(yuǎn)超GPT-4。即使國(guó)產(chǎn)大模型花費(fèi)400多天追平了GPT-4，在相當(dāng)長(zhǎng)一段時(shí)間里，仍將處于追趕的姿態(tài)。

大模型的價(jià)值是解決日常問(wèn)題的生產(chǎn)力工具，趕超GPT-4的階段性升級(jí)，可以看作是國(guó)產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志，切莫像手機(jī)跑分那樣，在過(guò)度營(yíng)銷(xiāo)的作用下，淪為被群嘲的對(duì)象。

撰文｜顧青云編輯｜沈菲菲

本文由人人都是產(chǎn)品經(jīng)理作者【Alter】，微信公眾號(hào)：【Alter聊科技】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App