GPT-4o搶先測:文本能力提高,但仍存短板
GPT-4o的能力表現(xiàn)到底如何?為了真正了解GPT-4o的能力,本文作者對GPT-4o進(jìn)行了多輪多角度測試,感興趣的同學(xué),可以來看一下。
北京時間5月14日凌晨,OpenAI推出兼具聽、看、說能力的GPT-4o。
新版GPT-4o最大的看點在于,可實時對音頻、視覺、文本進(jìn)行推理,并接受三者的任意組合,最終能生成文本、音頻、圖像的任意組合。
如在現(xiàn)場演示視頻中,OpenAI前沿研究負(fù)責(zé)人馬克·陳在和GPT-4o對話時,當(dāng)馬克·陳稍微有些緊張時,GPT-4o很快進(jìn)行安慰。當(dāng)聽到馬克·陳話語有些急促時,GPT-4o對馬克·陳說道,你不是吸塵器,吸氣、然后數(shù)到四,讓自己慢下來。
另一演示視頻中,OpenAI后訓(xùn)練團(tuán)隊負(fù)責(zé)人巴雷特·佐夫讓GPT-4o判斷自我情緒如何。GPT-4o先是看到木質(zhì)材面的桌子后又說道,你看起來非常開心,甚至還有點興奮。
整個演示視頻中,GPT-4o表現(xiàn)得如同老朋友那般親切,甚至說話語氣和“真人”一樣,這讓不少網(wǎng)友紛紛驚嘆現(xiàn)在的大模型都有視覺功能了嗎?它未來又是否能幫助盲人看世界呢?
為真正了解GPT-4o的能力,發(fā)布會結(jié)束后,DoNews對GPT-4o進(jìn)行了多輪多角度測試:
圖源:GPT-4o官網(wǎng)對話頁面
在文本輸出能力上,GPT-4o的能力可以完全用驚艷來形容。當(dāng)我們讓GPT-4o幫我們寫中國傳統(tǒng)神話四大神獸的故事時,GPT-4o幾秒時間內(nèi)就能完成,且內(nèi)容準(zhǔn)確度極高。
圖源:GPT-4o官網(wǎng)對話頁面
當(dāng)我們將難度升級,讓GPT-4o解讀安克創(chuàng)新2024年Q1財報時,幾秒的時間GPT-4o直接將安克創(chuàng)新長達(dá)15頁的財報內(nèi)容中核心數(shù)據(jù)全部提煉出來。
圖源:GPT-4o官網(wǎng)對話頁面
甚至當(dāng)我們繼續(xù)追問GPT-4o,您覺得安克創(chuàng)新2024年Q1財報存在哪些問題時,GPT-4o快速回答出包括經(jīng)營活動現(xiàn)金流量凈額大幅下降、銷售費用和管理費用大幅增加、財務(wù)費用的波動、公允價值變動收益大幅下降、資產(chǎn)減值損失大幅增加、其他收益和投資收益減少等六大風(fēng)險。
圖源:GPT-4o官網(wǎng)對話頁面
我們繼續(xù)升級難度,要求GPT-4o幫我們翻譯一篇長達(dá)35頁的外文,雖說響應(yīng)速度有所下降,但依然能快速提煉出這份報告的核心內(nèi)容。
圖源:GPT-4o官網(wǎng)對話頁面
值得注意的是,發(fā)布會上提到的可對文本、音頻、圖像進(jìn)行任意組合,目前暫未實現(xiàn)。
因此,我們指定一個命令:我有一個朋友目前處在失戀狀態(tài),請你幫我撰寫800字的文章安慰他,幫他走出陰影,要求內(nèi)容中同時具有圖片和音頻,GPT-4o回答為“我暫時無法直接創(chuàng)建包含圖片和音頻的文章”。
圖源:GPT-4o官網(wǎng)對話頁面
在大模型常見的問答上,GPT-4o已不做任何回答,而是全網(wǎng)檢測和問題相近的網(wǎng)頁。當(dāng)我們在提問GPT-4o關(guān)于美聯(lián)儲降息問題時,GPT-4o給出2個相關(guān)網(wǎng)站鏈接。
圖源:GPT-4o官網(wǎng)對話頁面
當(dāng)我們提問GPT-4o關(guān)于全球新能源汽車行業(yè)價格戰(zhàn)相關(guān)問題時,GPT-4o更是給出6個相關(guān)網(wǎng)站鏈接。換言之,GPT-4o正朝著AI搜索工具類產(chǎn)品方向發(fā)展。周鴻祎也曾指出,未來OpenAI一定會誕生 AI 搜索類型的產(chǎn)品。
圖源:GPT-4o官網(wǎng)對話頁面
在圖像識別和生成上,GPT-4o可以說是喜憂參半。我們在選取網(wǎng)絡(luò)平臺上一張同時包含多種人物表情的照片時,GPT-4o能準(zhǔn)確描述出6個小照片下人物的內(nèi)心活動。
圖源:GPT-4o官網(wǎng)對話頁面
但當(dāng)我們讓GPT-4o識別國內(nèi)流行的AI黏土特效相關(guān)照片時,卻被GPT-4o識別為手工雕塑作品。換言之,大模型若想始終競爭優(yōu)越性,也需要不斷反復(fù)學(xué)習(xí),尤其是在各國不斷流行的事物上。
圖源:原圖基于小紅書網(wǎng)友分享整理、GPT-4o官網(wǎng)對話頁面
且GPT-4o若想真正成為世界級的大模型,也需要深入學(xué)習(xí)各國文化才能保證生成的圖片不會出錯。
當(dāng)我們讓GPT-4o輸出一張中國傳統(tǒng)神話故事中青龍的照片時:在《山海經(jīng)》中,唯一帶翅膀的龍為應(yīng)龍,青龍并不帶翅膀,輸出明顯錯誤。
圖源:GPT-4o官網(wǎng)對話頁面
當(dāng)我們將難度升級,要求GPT-4o輸出一張同時包含中國傳統(tǒng)神話故事中四大神獸的照片時,圖片內(nèi)容雖出現(xiàn)四大神獸,但除青龍稍微符合神話故事原型外,其他三大神獸均和神話故事中的原型相差極大。
圖源:GPT-4o官網(wǎng)對話頁面
至于發(fā)布會上,OpenAI高層們演示的功能,目前GPT-4o暫未上線。當(dāng)我們讓GPT-4o識別抖音上一條十幾秒的生日祝福視頻時,GPT-4o回答為暫無法直接聽取識別音頻或視頻中的音樂。
圖源:抖音視頻截圖
圖源:GPT-4o官網(wǎng)對話頁面
在后續(xù)的測試中,我們發(fā)現(xiàn)GPT-4o的能力遠(yuǎn)沒有達(dá)到外界宣傳的顛覆級、爆炸級。當(dāng)我們讓GPT-4o給我們寫抽獎的代碼和航班查詢的代碼時,GPT-4o一直沒有輸出結(jié)果。
圖源:GPT-4o官網(wǎng)
在測試邏輯推理上,我們選取2023年全國卷數(shù)學(xué)高考真題中難度較大的壓軸題時,GPT-4o給出的答案可以用失望來形容。
圖源:2023年全國卷數(shù)學(xué)真題
如在全國高考卷第20題的兩問中,GPT-4o僅是簡單地給出不完整的解題步驟,沒有輸出任何一個準(zhǔn)確答案。
圖源:GPT-4o官網(wǎng)對話頁面
第21題的三問中,GPT-4o不僅將三小問變成兩小問,且前兩問求概率的問題上,本應(yīng)為具體數(shù)字的答案,在GPT-4o這里卻是帶有變量N的不確定答案。
圖源:GPT-4o官網(wǎng)對話頁面
GPT-4o發(fā)布會結(jié)束后,奧爾特曼指出,我真的可以預(yù)見到一個激動人心的未來:我們能夠利用計算機(jī)完成以往無法想象的更多事務(wù)。但基于我們現(xiàn)在測試的能力來看,GPT-4o又到底能完成多少無法想象的事務(wù)呢?
創(chuàng)新工場董事長兼CEO、零一萬物CEO李開復(fù)在接受媒體采訪表示,零一萬物的新模型Yi-XLarge MoE已訓(xùn)練一半,之后會朝著美國大模型繼續(xù)進(jìn)步;科大訊飛董事長劉慶峰曾透露,目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在諸多短板需要補(bǔ)齊,歷經(jīng)一年多發(fā)展的國內(nèi)大模型真實能力到底如何呢?
同時考慮到中美消費者和企業(yè)主,對軟件付費意愿差異較大,未來國內(nèi)大模型TOC端和TOB端大模型的商業(yè)化仍需持續(xù)探索,這就意味著國內(nèi)大模型不管在國內(nèi)市場,還是在海外市場,未來仍有很長很長的路要走。
路漫漫其修遠(yuǎn)兮,國內(nèi)大模型廠商仍需上下而求索。
本文由人人都是產(chǎn)品經(jīng)理作者【DoNews】,微信公眾號:【DoNews】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!