Llama 3.1 405B VS Mistral Large 2,誰是開源之王?|AI橫評
近期,AI界迎來了兩款引人注目的大型模型——Meta的Llama 3.1 405B和Mistral AI的Mistral Large2。這兩個模型不僅支持多種人類語言,還精通眾多編程語言。為了測試它們的多語言處理能力,我們進行了一次Base64編碼的解謎游戲。結果如何?讓我們一起探索AI大模型在這場語言解碼挑戰(zhàn)中的表現(xiàn)吧!
最近兩款大型 AI 模型相繼發(fā)布。在7月23日,Meta?發(fā)布了?Llama 3.1 405B?模型,該模型不僅支持8種人類語言,還精通多種計算機語言,如下圖所示:
緊接著在7月24日,Mistral?AI?發(fā)布了最新的?Mistral Large2?模型,這款模型支持數(shù)十種人類語言,并熟練掌握了80多種編程語言,包括 Python、Java、C、C++、JavaScript 和 Bash等。
它還精通一些更具體的語言,如?Swift?和 Fortran。
Base64 編碼是一種將二進制數(shù)據(jù)轉換為文本格式的編碼方式,常用于在文本協(xié)議中傳輸二進制數(shù)據(jù)。Base64 編碼在數(shù)據(jù)預處理、模型輸入輸出、數(shù)據(jù)安全等方面有著廣泛的應用。
通過 Base64 編碼,我們可以評估 AI 模型的多語言處理能力,測試它們是否能準確理解和翻譯編碼后的信息,尤其是它們對不同語言和編碼格式的理解和處理能力。進而檢驗它們的多語言翻譯能力、回答準確度和推理能力。
解碼是編碼的逆過程。如果一個 AI 模型能夠準確地解讀和處理 Base64 編碼或解碼出相關信息,那么它在執(zhí)行日常編程任務、解析網(wǎng)絡數(shù)據(jù),甚至從復雜文件中提取信息時,將會更加得心應手。
今天,我們就用這種看似晦澀的 Base64 編碼和解碼來測試 AI 大模型的多語言能力。
接下來,我們要帶著一點“偵探”的心情,來玩一個關于 Base64 編碼的解謎游戲。
雖然主要選手是 Llama 3.1 405B和Mistral Large2,但我們也加入了Qwen2-72B 和 GPT-4o,一個是國內(nèi)的頭部開源項目,另一個則是閉源代表,看看他們是否真的能夠像處理普通語言那樣,輕松應對這些“編碼挑戰(zhàn)”,我們拭目以待!
游戲規(guī)則:
我們將使用 Base64 編碼的字符串進行多語言測試,包括中文和英文。通過這次測試,我們可以了解各大模型在多語言翻譯、回答準確度和推理能力方面的表現(xiàn)。
– 測試共 2 輪,每輪三次對話。每答對一次記 1 分。
– 為了確保測試的公平性,我們會提示模型不要使用代碼工具進行解碼。
– 提示詞:這是一個 base64 信息【】,請你不使用代碼工具告訴我這是什么信息。
首先我們大致知道下 Base64 編碼解碼的步驟和流程是什么。
Base64編碼是將二進制數(shù)據(jù)轉換成一系列特定的64個字符(A-Z, a-z, 0-9, +, /)來表示。如果解碼過程中的步驟不正確或者字符串不是有效的Base64編碼,那么解碼結果可能會是錯誤的或無意義的。若要檢查實際的Base64編碼字符串代表的內(nèi)容,可以使用在線工具或編程語言中的庫來正確解碼。
第一輪:英文解碼
本輪采用英文單詞轉 Base64 編碼測評,編碼后的字符串分別為:
Justice:SnVzdGljZQo=
Bravery:QnJhdmVyeQo=
Kindness:S2luZG5lc3M=
我們先來用英文編碼測試看看個大模型結果如何,Llama 3.1 405B 答的都完全正確,得 3 分。但全部都是英文回答,對于中文不太友好。
不過它還是會附上自己特色的表情包,這“人味兒”誰不喜歡,情緒價值給的非常到位。
而?Mistral Large 2?解碼的英文 Base64 信息答對兩題,得 2 分。在第二問中,原文是 brevery,解碼的是“brave”,最有可能的錯誤來源是在字符到二進制索引的轉換、索引到二進制的轉換,或者在二進制數(shù)的重組過程中出現(xiàn)了錯誤。
不過值得表揚的是,在解碼過程中它先是解釋了原理,然后用 5 個步驟逐步分析推理最后解碼,既詳細又清晰明了,非常易懂。
ChatGPT-4o?回答一如既往地極其簡潔和快速,這次換成解碼后的內(nèi)容也是相當正確,記 3 分。
最后來看下?Qwen2-72B?的英文解碼回答,三個答案都是正確的,還解釋了實際編碼中的注意事項,易于理解,而且考慮周到,得 3 分。
第二輪:中文解碼,無一生還?
本輪加大難度,采用中文詞語轉 Base64 編碼測評,編碼后的字符串分別為:
正義:5q2j5LmJ
勇敢:5YuH5pWi
善良:5ZaE6Imv
先來看看超大杯 Llama 3.1 405B 是怎么回答的:
一連三問, Llama 3.1 405B 依舊全英文回答解碼信息,得到的卻是“你好世界”、“你好”、“再見”這些詞匯的英文,基本全錯,這一輪得0分。
放眼望去,Base64 字符串轉換后通常不會有下圖這樣的結果,除非原始數(shù)據(jù)就是這樣。Llama 3.1 405B 在第二步就開始錯了,即“Base64字符到ASCII的映射”,那之后的結果肯定也全都是錯的。
在解碼過程中,每個 Base64 字符應該映射到一個特定的6位二進制值。如果解碼時字符到二進制的映射錯誤,解碼出來的結果自然也會錯誤。
不過有趣的是,Llama 3.1 405B 它更有“人味兒”了,每次回答都會有一些小表情在文字里,而且回答之前還會加一些語氣詞之類的內(nèi)容,真的越來越人性化了。
再來看看今天發(fā)布的 Mistral Large 2 怎么樣。
三問后,對于編碼后的中文也是是一個也沒答對,這一輪得0分。
雖然 Mistral Large 2 的解碼推理過程很詳細,具體到了每一步驟,但是這更加清楚的看到哪一步出錯了。主要是在第二步就錯了,Base64字符到二進制的映射,那之后的推理步驟也都是錯的,結果也一定是錯的。
這一步中,Base64 編碼的字符被錯誤地直接映射到了 ASCII 字符,而不是它們正確的二進制值。例如把 ‘5’ 映射到了 ‘H’。這種映射忽略了 Base64 編碼的實際工作原理,即每個 Base64 字符實際上表示了一個6位的二進制數(shù),而不是一個直接的ASCII 字符。
這樣看來這塊的能力非常有待加強。
來看看對中文理解更強的?ChatGPT-4o,它直接給出解碼的內(nèi)容,全部都對,這一輪得3分。
再來看國產(chǎn)最抗打的?Qwen2-72B,解碼結果也是“測試”“你好”“世界”,基本全錯,這一輪得0分。
我們來細看 Qwen2-72B 的思路,回答里只有推理思路,并且省略各種轉換步驟,直接得出答案,這代表著得到的結果極大程度上是錯誤的。也就是說 Qwen2-72B 主要錯誤主要集中在對 Base64 編碼的理解和解碼步驟的執(zhí)行上。
比如:直接從 Base64 編碼得到具體的中文字符,這是不太可能的,因為這需要正確的字節(jié)序列和編碼(如UTF-8)來解釋二進制數(shù)據(jù)。
最終得分是:
明顯 ChatGPT-4o 得6分,完全領先于其他各大模型,無論是中文、還是英文,Base64 碼都能輕松轉換為我們所理解的意思。
而其他三個模型 Llama 3.1 405B、Qwen2-72B 均獲得3分,在英文解碼方面表現(xiàn)都不錯,但對中文解碼相對不足。其中 Llama 3.1 405B 在回復的時候則更有“人味兒”,能給到人們更多的情緒價值。但整體的回答偏向英文,中文語言功能相對較多,除非單獨硬性要求它用中文回復。
而墊底的 Mistral Large 2 因為英文解碼錯誤一題丟失一分,但其解碼推理過程十分詳細清晰,顯示出強大的推理能力,而其他模型在這方面的表現(xiàn)差異較大。
通過這次測試,我們發(fā)現(xiàn)大模型在多語言和編程語言解碼方面表現(xiàn)各異,當前大模型在多語言處理上有些許不平衡。整體英文回答普遍準確且清晰,但中文回答準確度低。
最后
編碼,是人類為了高效運輸信息,對信息本身做的一系列邏輯變形。通常我們認為它是“計算機的語言”。但這次測試看下來,對于大語言模型來說,正確的編碼和解碼反而成了一道難題。尤其是在多語言環(huán)境下,每一次編碼解碼的過程涉及到多個步驟和多種編碼規(guī)則,有一環(huán)出錯甚至是二進制的一位算錯,都不可能得到準確的答案。
綜合來看,GPT-4o 確實還是強一些,僅從這個小游戲來說,Qwen2-72B 反而能和 Llama3.1 405B 五五開。有些意外的是 Mistral Large2 在這次成了墊底。
作者|椒鹽玉兔
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
AI真的很有幫助,解決了我一直以來的疑惑,感謝作者的用心分享!