国产v亚洲V天堂无码流，国产一级无码免费视频，亚洲欧美成人影院，拍国产真实乱人偷精品，亚洲欧美中日韩中文字幕，国产真实乱子伦在线视频，亚洲中文字幕无码一区日日添，亚洲日本电影久久

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

大模型智障檢測(cè)+1：Strawberry有幾個(gè)r紛紛數(shù)不清，最新最強(qiáng)Llama3.1也傻了

量子位

2024-07-27

0 評(píng)論 2070 瀏覽 0 收藏

11 分鐘

最近，一系列大模型在處理一些看似簡(jiǎn)單的問題時(shí)卻出現(xiàn)了意外的“集體失智”，特別是關(guān)于數(shù)單詞 "Strawberry" 中 "r" 的個(gè)數(shù)問題。這一現(xiàn)象不僅引起了技術(shù)愛好者的廣泛關(guān)注，也讓普通用戶對(duì) AI 的能力產(chǎn)生了疑問。

繼分不清9.11和9.9哪個(gè)大以后，大模型又“集體失智”了！

數(shù)不對(duì)單詞“Strawberry”中有幾個(gè)“r”，再次引起一片討論。

GPT-4o不僅錯(cuò)了還很自信。

剛出爐的Llama-3.1 405B，倒是能在驗(yàn)證中發(fā)現(xiàn)問題并改正。

比較離譜的是Claude 3.5 Sonnet，還越改越錯(cuò)了。

說起來這并不是最新發(fā)現(xiàn)的問題，只是最近新模型接連發(fā)布，非常熱鬧。

一個(gè)個(gè)號(hào)稱自己數(shù)學(xué)漲多少分，大家就再次拿出這個(gè)問題來試驗(yàn)，結(jié)果很是失望。

在眾多相關(guān)討論的帖子中，還翻出一條馬斯克對(duì)此現(xiàn)象的評(píng)論：

好吧，也許AGI比我想象的還要更遠(yuǎn)。

01 路遇失智AI，拼盡全力終于教會(huì)

有人發(fā)現(xiàn)，即使使用Few-Shot CoT，也就是“一步一步地想”大法附加一個(gè)人類操作示例，ChatGPT依然學(xué)不會(huì)：

倒是把r出現(xiàn)的位置都標(biāo)成1，其他標(biāo)成0，問題的難度下降了，但是數(shù)“1”依舊不擅長(zhǎng)。

為了教會(huì)大模型數(shù)r，全球網(wǎng)友腦洞大開，開發(fā)出各種奇奇怪怪的提示詞技巧。

比如讓ChatGPT使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。

ChatGPT想出的方法倒是也很樸素，就是分別把每個(gè)字母寫出來再一個(gè)一個(gè)數(shù)并記錄位置，總之終于答對(duì)了。

有Claude玩家寫了整整3682個(gè)token的提示詞，方法來自DeepMind的Self-Discover論文，可以說是連夜把論文給復(fù)現(xiàn)了。

整個(gè)方法分為兩大階段：先針對(duì)特定任務(wù)讓AI自我發(fā)現(xiàn)推理步驟，第二階段再具體執(zhí)行。

發(fā)現(xiàn)推理步驟的方法簡(jiǎn)單概括就是，不光要會(huì)抽象的思維方法，也要具體問題具體分析。

這套方法下，Claude給出的答案也非常復(fù)雜。

作者補(bǔ)充，花這么大力氣解決“數(shù)r問題”其實(shí)并不真正實(shí)用，只是在嘗試復(fù)現(xiàn)論文方法時(shí)偶然測(cè)試到了，希望能找出一個(gè)能用來回答所有問題的通用提示詞。

不過很可惜，這位網(wǎng)友目前還沒公布完整的提示詞。

還有人想到更深一層，如果要計(jì)算文檔中straberry出現(xiàn)多少次怎么辦？

他的方法是讓AI想象有一個(gè)從0開始的內(nèi)存計(jì)數(shù)器，每次遇到這個(gè)單詞就往上加。

有人評(píng)論這種方法就像在用英語編程。

02 也有AI可以一次做對(duì)

那么究竟有沒有大模型，可以不靠額外提示詞直接答對(duì)呢？

其實(shí)不久之前有網(wǎng)友報(bào)告，ChatGPT是有小概率能直接答對(duì)的，只不過不常見。

谷歌Gemini 大概有三分之二的概率能答對(duì)，打開“草稿”就能發(fā)現(xiàn)，默認(rèn)每個(gè)問題回答三次，兩次對(duì)一次錯(cuò)。

至于國(guó)內(nèi)選手，在提問方式統(tǒng)一、每個(gè)模型只給一次嘗試機(jī)會(huì)的測(cè)試下，上次能正確判斷數(shù)字大小的，這次同樣穩(wěn)定發(fā)揮。

字節(jié)豆包給出了正確回答，還猜測(cè)用戶問這個(gè)問題是要學(xué)習(xí)單詞拼寫嗎？

智譜清言的ChatGLM，自動(dòng)觸發(fā)了代碼模式，直接給出正確答案“3”。

騰訊元寶像解數(shù)學(xué)題一樣列方程給出了正確答案（雖然貌似沒有必要）。

文心一言4.0收費(fèi)版則更加詳細(xì)，也是先正確理解了意圖，然后掰指頭挨個(gè)找出了全部的“r”。

不過有意思的是，在同一種方法下，文心一言APP中的免費(fèi)版文心3.5掰指頭也能數(shù)錯(cuò)。

訊飛星火也通過找出“r”所在位置給出了正確回答。

03 還是token的鍋

雖然“數(shù)r”和“9.11與9.9哪個(gè)大”，看似一個(gè)是數(shù)字問題一個(gè)是字母問題，但對(duì)于大模型來說，都是token問題。

單個(gè)字符對(duì)大模型來說意義有限，使用GPT系列的Llama系列的tokenizer就會(huì)發(fā)現(xiàn)，20個(gè)字符的問題，在不同AI眼中是10-13個(gè)token。

其中相同之處在于，strawberry被拆成了st-，raw，-berry三個(gè)部分來理解。

換一個(gè)思路用特殊字符??????????來提問，每一個(gè)字符對(duì)應(yīng)的token也就會(huì)分開了。

面對(duì)這種問題，其實(shí)最簡(jiǎn)單的方法就是像智譜清言一樣，調(diào)用代碼來解決了。

可以看到，ChatGPT直接用Python語言字符串的count函數(shù)，就能簡(jiǎn)單搞定。

剛剛創(chuàng)業(yè)開了所學(xué)校的大神卡帕西認(rèn)為，關(guān)鍵在于需要讓AI知道自己能力的邊界，才能主動(dòng)去調(diào)用工具。

至于教給大模型判斷自己知道不知道的方法，Meta在LLama 3.1論文中也有所涉及。

最后正如網(wǎng)友所說，希望OpenAI等大模型公司，都能在下個(gè)版本中解決這個(gè)問題。

GPT Tokenizer試玩

https://gpt-tokenizer.devLlama

Tokenizer試玩

https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/

參考鏈接：

[1]https://x.com/diegoasua/status/1816146114573394143

[2]https://www.reddit.com/r/ClaudeAI/comments/1eap6b1/comment/leolf3t/

[3]https://www.reddit.com/r/ChatGPT/comments/1do7cnq/counting_the_rs_a_chat_with_chatgpt/

[4]https://www.reddit.com/r/ChatGPT/comments/1dpfj2c/a_prompt_where_chatgpt_gets_the_strawberry/

夢(mèng)晨一水發(fā)自凹非寺

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號(hào)：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

量子位

追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

71篇作品 186667總閱讀量

沒有所謂失敗，除非你不再嘗試——2023數(shù)字化產(chǎn)品經(jīng)理大會(huì)·深圳站報(bào)道

06-116955 瀏覽

華為流程體系：IPD流程之敏捷開發(fā)

06-217260 瀏覽

MCN下場(chǎng)做品牌，一場(chǎng)九死一生的游戲？

03-143203 瀏覽

Go to Market：如何選擇細(xì)分行業(yè)客戶

09-144460 瀏覽

花了好幾千，我買了個(gè)“電視爹”

02-212620 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

品牌1號(hào)位：20個(gè)增長(zhǎng)模型

06-214290 瀏覽
如何進(jìn)行需求進(jìn)度管理？

10-192113 瀏覽
iOS17 公測(cè)版終于來了，我決定讓同事都升一波

07-143510 瀏覽

大模型智障檢測(cè)+1：Strawberry有幾個(gè)r紛紛數(shù)不清，最新最強(qiáng)Llama3.1也傻了

01 路遇失智AI，拼盡全力終于教會(huì)

02 也有AI可以一次做對(duì)

03 還是token的鍋

01 路遇失智AI，拼盡全力終于教會(huì)