一区二区三区在线三级片，国产精品白拍三级，老熟妇仑乱视频一区二区，久久精品视频1，亚洲国产综合精品2021，2020精品国产福利在线观看香蕉，欧美人成网站中文字，国产精品自在自线一区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

你是否也曾榨干過DeepSeek？

柳胖胖

2025-04-22

0 評論 1021 瀏覽 0 收藏

10 分鐘

在AI大模型的廣泛應(yīng)用中，我們常常驚嘆于其快速生成回答的能力。然而，當(dāng)面對一些需要深度檢索和復(fù)雜信息處理的問題時，即使是強(qiáng)大的AI模型也可能陷入長時間的“思考”。本文通過作者對DeepSeek的深度體驗，探討了AI在處理復(fù)雜信息檢索任務(wù)時的表現(xiàn)，特別是OpenAI發(fā)布的BrowseComp測試中，模型在面對簡單答案卻隱藏在復(fù)雜信息中的問題時的挑戰(zhàn)。

在今年深度體驗AI大模型的3個月里，我發(fā)現(xiàn)無論他回答的對不對，大多數(shù)時候，他基本都能在1分鐘內(nèi)能生成回答（很多時候是秒答），無論回答質(zhì)量如何，是否有幻覺，他都能很快給你答完就是了。

但是，有這么一類問題，他的答案普遍簡短，有的短到只有一個單詞，長的也不超過10個單詞，卻常常讓DeepSeek深度思考五分鐘以上，過程中動不動還爆出數(shù)千字以上的思維鏈。

比如下面這個問題：

中間的思維鏈就更長了，接近5000字，我就不全截圖了。

你可以想象它在將近5分鐘里，一直在生成思維鏈，全文包含79個wait：

還有下面這個問題，花了將近6分鐘

這兩個問題，別看題目不長，答案也都很短，大模型花了這么久，但是依然做錯了。

這些問題，都來自一個測試，就是OpenAI在4月上旬發(fā)布的BrowseComp：瀏覽競賽。

這個測試，主要就測一個能力：定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了，就是要看看大模型們?yōu)g覽網(wǎng)頁和搜索信息的能力，到底強(qiáng)到什么地步了？因為現(xiàn)有的測試比如SimpleQA，其實已經(jīng)被“刷爆”了。

但是，基本上沒太多人討論這個BrowseComp，它被淹沒在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

瀏覽競賽里的問題集的最大特點，就是答案簡單，但是，題干一定會用最虛無縹緲的特征描述，把簡單的答案層層包裹起來。

比如，答案是一個歷史名人，但是，題干是這個人最冷僻、最不為人所知的信息點，甚至是有很大誤導(dǎo)性的信息點，比如這個描述同時也有很多其它人符合或者是很籠統(tǒng)的描述，最終，你會很難猜到這個人是誰。

比如劉備，大家都知道，如果問桃園三結(jié)義里的大哥是誰，那就太好猜了。

如果這么問：某河北籍男子，身高1米88，15歲外出求學(xué)，中年創(chuàng)業(yè)多次失敗，兒子很不成器，晚年因為要給弟弟報仇，63歲客死他鄉(xiāng)。

是不是難了很多？

當(dāng)然，理論上，還要加入更多的限制性條件，讓答案唯一。

以上信息，還算是很好找的，所有信息都在一個百度百科的網(wǎng)頁里都有了（因為就是我?guī)追昼妰?nèi)現(xiàn)編的，如果信息有誤請找百度）。

但問題是，在不知道答案是劉備的前提下，而且題干的信息給得更朦朧更誤導(dǎo)一點的話，大模型往往需要橫跨數(shù)十個甚至上百個網(wǎng)頁，才有可能定位到其中某個信息，然后開始驗證，排除，再查找，再驗證…最后，答錯了。

官方論文里的另一個例題：請告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會議上的論文，其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院（Dartmouth College），第四作者本科畢業(yè)于賓夕法尼亞大學(xué)（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

這些問題在知道答案的時候，都很容易確認(rèn)，就是1分鐘的事情，但是不知道答案的話，模型就得暴力搜索數(shù)千篇論文了。

這也是官方所謂的“驗證的不對稱性asymmetry of verification”：驗證容易，解答困難。但是，這就恰恰符合了這個測試的目標(biāo)：大模型的檢索能力。

雖不算完美，卻也有效。它不是考驗?zāi)Ｐ蚽ext token predidtion的能力，畢竟題干和答案都很短，也不太考驗推理能力，因為不太需要什么深度研究分析（不過普遍來說推理模型的表現(xiàn)還是會更好），只要找得到信息，就能回答正確。

下圖顯示了BrowseComp的整體測試結(jié)果：花的時間越久，正確率越高，這也是之前DeepSeek會花那么久的原因之一，但是，正確率最高的模型，也就50%左右，而且嚴(yán)格來說，它還不算一個模型，而是agent

瀏覽競賽里的問題，實在也不好編，官方說，現(xiàn)在攏共只有1266個問題。

官網(wǎng)放出了5道例題，我分別讓DeepSeek V3、R1不開聯(lián)網(wǎng)、R1開聯(lián)網(wǎng)，分別測試了5個問題，每次都新開對話窗口，一共15次測試，全軍覆沒。

（注意，這并非是說DeepSeek在整個問題集里一道都做不對，而是正確率大概率很低）

而且，在沒有聯(lián)網(wǎng)的情況下，出現(xiàn)了前述的超長回答時間的問題，理論上，這種自我榨干的情況不該出現(xiàn)，它應(yīng)該早一點發(fā)現(xiàn)自己其實根本無法作答，然后再給出一個它認(rèn)為最有可能正確的猜測即可（注：R1的表現(xiàn)比V3好）。

那么，到底什么模型表現(xiàn)最好呢？

很遺憾，OpenAI還只測試了自家的模型，暫時沒啥橫向可比性，雖然我認(rèn)為瀏覽網(wǎng)頁和尋找信息的能力，肯定是agent們包含的各種tool use能力里最重要的一個。