“越長(zhǎng)”就越強(qiáng)?為何通義千問(wèn)卷不動(dòng)Kimi

0 評(píng)論 1753 瀏覽 1 收藏 10 分鐘

可以說(shuō)在Kimi的刺激下,國(guó)內(nèi)的大模型也開(kāi)始在長(zhǎng)文本能力上下功夫了,那么,國(guó)產(chǎn)大模型的長(zhǎng)文本能力究竟如何?不妨來(lái)看看本文的測(cè)評(píng)結(jié)果。

最近,受到Kimi大火的刺激,國(guó)內(nèi)大模型們又開(kāi)始了新一輪“我有多長(zhǎng)”的比賽了。

在Kimi 目前200萬(wàn)文本長(zhǎng)度打底的情況下,其他各家沒(méi)個(gè)四五百萬(wàn)打底,都不好意思見(jiàn)人了。

比如360那個(gè)“智腦”,號(hào)稱(chēng)能處理500萬(wàn)字長(zhǎng)文本,而百度稍微低調(diào)些,打算下個(gè)月開(kāi)放200萬(wàn)-400萬(wàn)的長(zhǎng)文本能力。

最狂的是通義千問(wèn),直接升級(jí)到了1000萬(wàn)文本長(zhǎng)度,成了全球文檔處理容量第一的AI。

但是,“越長(zhǎng)”就真的“越強(qiáng)”嗎?

在長(zhǎng)文本方面,想成為真正的“大家伙”,可不僅僅只是把所有知識(shí)都灌進(jìn)肚子里就行了。光是囫圇吞不算啥,得能穿針引線(xiàn),理解和應(yīng)用其中的內(nèi)容、知識(shí),才能幫用戶(hù)解決真正的問(wèn)題。

所以,今天我們不妨先拿通義千問(wèn)這個(gè)“出頭鳥(niǎo)”來(lái)開(kāi)開(kāi)刀,用幾個(gè)最為常見(jiàn)的長(zhǎng)文本任務(wù),好好拿捏一下這上千萬(wàn)的文本能力,究竟有多少含金量。

一、三大考驗(yàn)

1. 新聞?wù)?/h3>

今天咱們要干的第一個(gè)長(zhǎng)文本活兒,就是最常見(jiàn)的新聞?wù)獨(dú)w納。

因?yàn)槟切┟襟w搞的大新聞啊、深度調(diào)查啊,為了把事情說(shuō)透徹,堆砌了一大堆事實(shí)、數(shù)據(jù)、例子,文章就賊拉長(zhǎng)。

現(xiàn)在呢,咱們得把這些長(zhǎng)文章濃縮一下,簡(jiǎn)單直白地說(shuō)說(shuō)重點(diǎn)。

在這里,我們選擇的文章,是36氪的文章《卷進(jìn)前1%,誰(shuí)能拿下新藥出海下一個(gè)百億美元交易?》

首先來(lái)看看通義千問(wèn)的表現(xiàn)。

從這個(gè)總結(jié)的結(jié)果來(lái)看,通義千問(wèn)基本覆蓋了文章的主要信息點(diǎn),并簡(jiǎn)要地對(duì)每個(gè)要點(diǎn)進(jìn)行了摘要,行文還算流暢。

但是,仔細(xì)看下來(lái),這樣的總結(jié)長(zhǎng)度較長(zhǎng),缺乏清晰的層次結(jié)構(gòu),用戶(hù)需要投入更多時(shí)間和精力去梳理歸納要點(diǎn)。

此外,其在總結(jié)時(shí),很多地方是直接摘錄了原文的風(fēng)格,沒(méi)有對(duì)內(nèi)容進(jìn)行高度壓縮概括,效率相對(duì)較低。

接下來(lái)再看看kimi的表現(xiàn)。

相較之下,Kimi的總結(jié)結(jié)構(gòu)層次分明,將要點(diǎn)分為多個(gè)方面進(jìn)行陳述,使得用戶(hù)可以快速掌握文章的框架和重點(diǎn)內(nèi)容。

同時(shí),從覆蓋面來(lái)看,Kimi總結(jié)的要點(diǎn)一共有9個(gè),涉及了出海形式、創(chuàng)新要求、BD對(duì)比IPO、長(zhǎng)期發(fā)展等核心內(nèi)容,反映了對(duì)文章信息的更全面梳理。

而通義千問(wèn)的總結(jié)雖然內(nèi)容也算完整,但遺漏了一些重點(diǎn),比如沒(méi)有涉及創(chuàng)新和專(zhuān)利、國(guó)際化能力等等等。

2. 研報(bào)分析

如果說(shuō),對(duì)長(zhǎng)篇新聞的總結(jié),體現(xiàn)的是大模型在長(zhǎng)文本方面的主旨概括能力,那么接下來(lái)的研報(bào)分析,考驗(yàn)的則是在長(zhǎng)文本下,大模型推理能力的表現(xiàn)。

在這里,我們上傳了一份長(zhǎng)達(dá)60頁(yè)的企業(yè)研報(bào),來(lái)分別測(cè)試通義千問(wèn)和Kimi的表現(xiàn)。

這份研報(bào)這份研報(bào)主要包括了一家名為元隆雅圖的企業(yè)的業(yè)務(wù)戰(zhàn)略、財(cái)務(wù)表現(xiàn)、以及市場(chǎng)前景。

在測(cè)試中,我們要求通義千問(wèn)對(duì)該企業(yè)在AI時(shí)代可能具有的潛在優(yōu)勢(shì)進(jìn)行分析。

從結(jié)果來(lái)看,雖然其生成了一段“看似”詳細(xì)和具體的答案,但如果仔細(xì)觀察,就會(huì)發(fā)現(xiàn)這樣的回答,在很多要點(diǎn)上,都是比較重復(fù)的。

例如“IP資源智能化運(yùn)營(yíng)” 與“IP資產(chǎn)數(shù)字化轉(zhuǎn)型”,以及“新媒體營(yíng)銷(xiāo)智能化”與“一體化營(yíng)銷(xiāo)服務(wù)升級(jí)”,這些實(shí)際上都可以合并成一個(gè)點(diǎn)。

那相較之下,Kimi的表現(xiàn)怎樣呢?

可以看到,Kimi所分析出的要點(diǎn),明顯比通義千問(wèn)范圍更廣,維度更多,并且每個(gè)點(diǎn)都直擊主題。這點(diǎn)在進(jìn)行長(zhǎng)文本分析時(shí),就顯得尤為重要。

對(duì)短文本來(lái)說(shuō),集中精力、深入挖掘一兩個(gè)重點(diǎn)就可以搞定。但長(zhǎng)文本就不一樣了,首先,長(zhǎng)文本內(nèi)容豐富、層次繁多,單一視角顯然是捕捉不了全貌的。

再者,從概率上說(shuō),切入的角度越多,區(qū)別度越大,碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現(xiàn)”規(guī)律。

3. 小說(shuō)閱讀

最后,咱們?cè)賮?lái)個(gè)有點(diǎn)挑戰(zhàn)的。

這不像之前某些簡(jiǎn)單的測(cè)試,光讓模型復(fù)述下小說(shuō)情節(jié)就完事了。還得在通讀全文的基礎(chǔ)上,按咱說(shuō)的特殊文風(fēng),把情節(jié)重新講出來(lái)。這考驗(yàn)的就是一個(gè)指令遵循能力。

這里,我們選擇的是科幻小說(shuō)《沙丘》。

我們的要求是:《史記》的風(fēng)格,概述《沙丘》的主要情節(jié)。

雖然通義千問(wèn)在剛開(kāi)始時(shí),勉強(qiáng)保持了相應(yīng)的文風(fēng),但從第三段開(kāi)始,整個(gè)文風(fēng)又變成了現(xiàn)代文,沒(méi)能一以貫之地保持。

可以看出,在這一回合,Kimi幾乎完勝,不僅情節(jié)敘述得更為完整、詳細(xì),而且?guī)缀鯊氖贾两K地保持了接近《史記》的敘述風(fēng)格。

這顯示了Kimi在閱讀長(zhǎng)文本時(shí),強(qiáng)大的信息提取能力指令遵循能力。

二、跟風(fēng)與內(nèi)卷,救不了國(guó)產(chǎn)大模型

可以看出,在長(zhǎng)文本方面,Kimi無(wú)論是總結(jié)能力、分析能力,還是理解執(zhí)行指令的能力,目前都把通義千問(wèn)給壓下去了。

以通義千問(wèn)為代表的這類(lèi)國(guó)產(chǎn)大模型,一上來(lái)就號(hào)稱(chēng)數(shù)百萬(wàn),乃至上千萬(wàn)的文本長(zhǎng)度,結(jié)果在實(shí)測(cè)中搞出了“長(zhǎng)文本室溫超導(dǎo)”的感覺(jué),這說(shuō)明了,長(zhǎng)文本這事兒,還真不是“越長(zhǎng)越強(qiáng)?!?/strong>

之前,對(duì)于文本窗口的長(zhǎng)度,月之暗面的CEO楊植麟就表示:“不能只提升窗口,不能只看數(shù)字,今天是幾百萬(wàn)還是多少億的窗口沒(méi)有意義。你要看它在這個(gè)窗口下能實(shí)現(xiàn)的推理能力、the faithfulness的能力(對(duì)原始信息的忠實(shí)度)、the instruction following的能力(遵循指令的能力)。”

換言之,只有在這些核心能力方面展現(xiàn)出了真本事,你的長(zhǎng)文本能力才真算數(shù)。

倘若不好好修煉“內(nèi)功”,對(duì)“片段級(jí)遞歸”、“相對(duì)位置編碼”等一系列重要的模型機(jī)制不夠諳熟,只是打激素式地增加文本長(zhǎng)度,最終的結(jié)果,除了跟風(fēng)式地蹭蹭熱度,徒增些內(nèi)卷的負(fù)擔(dān)外,對(duì)中國(guó)大模型的發(fā)展實(shí)無(wú)裨益。

作者:V

來(lái)源公眾號(hào):AI新智能(ID:alpAIworks),一個(gè)致力于探索人工智能對(duì)商業(yè)世界和社會(huì)影響的平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!