Claude/混元/QwQ/DeepSeek 最全實測+拆解,誰最強誰翻車?
近期,Claude 3.7、混元(QwQ)、DeepSeek等推理模型紛紛推出新版本,引發(fā)了行業(yè)的廣泛關注。為了探究這些模型的真實能力,本文通過編程、文本創(chuàng)作、懸疑推理、策略規(guī)劃和實時信息搜索等五大任務維度,對Claude 3.7、QwQ、DeepSeek R1以及混元T1進行了全面實測與深度拆解。
最近一周,推理模型又在持續(xù)刷屏了。
先是一直被眾人期待的Anthropic,終于帶著它的 Claude 3.7 Sonnet (以下簡稱Claude)混合推理模型來了,而后Qwen也緊趕慢趕地推出了Thinking (QwQ)模式,盡管還只是QwQ-Max-Preview版本;騰訊混元也宣布新一代快思考模型混元 Turbo S ,并在騰訊元寶中即將逐步灰度上線……“推理能力”毫無疑問已經成為了評判大模型能力的新風向標。
推理能力確實也就是如此重要。
從使用角度出發(fā),在實際應用中,用戶面臨的往往不是簡單的問答式對話,而是需要深度思考的復雜決策場景——從企業(yè)戰(zhàn)略規(guī)劃到科研突破,從創(chuàng)意設計到風險評估,都需要模型具備強大的推理能力。這直接決定了AI是否能真正成為人類的得力助手、效率工具。
因此,我們做了一次細致的評測來看看這三個新發(fā)布的推理模型能力如何,為了形成鮮明對比,我們還加入了最為火爆的DeepSeek R1(以下簡稱DS),另外由于混元Turbo S還在灰度測試,我們仍使用是混元深度思考模型Hunyuan T1。
在測試題目設置中,我們專門避開了傳統(tǒng)的數學計算、金融建模等固定模式任務,而是聚焦真實場景中的開放性問題,通過編程代碼、文本創(chuàng)作、懸疑推理、策略規(guī)劃、信息檢索五個任務,來考察AI的思維過程和推理能力。這些任務不僅考驗模型的基礎能力,更挑戰(zhàn)其類人思維水平。
測評結果也證明,盡管同屬推理賽道,四款模型卻各有特色。
任務一:編程能力
首先是o3-mini發(fā)布后出圈的小球運動問題。我們的題目是:編寫一個 Python 腳本,用pygame,讓一個球在某個形狀內彈跳。并讓該形狀緩慢旋轉,確保球停留在形狀內。
先看結果如何,以下分別是DeepSeek R1、QwQ、Claude3.7sonnet、Hunyuan T1的回答:
DeepSeek R1
Claude3.7sonnet
QwQ
Hunyuan T1
三者都運行成功了,但對比DeepSeek R1的標準答案,Claude和QwQ寫出來的都有些“奇特”。Claude設置了一個箭頭向量來展示運動方向,以及每發(fā)生一次碰撞就更換小球顏色的趣味規(guī)則,而QwQ而是將題目要求的“某個形狀”設置為橢圓形,并讓橢圓外框與小球的運動速度慢到難以發(fā)生碰撞。
而出錯的Hunyuan T1則是邊框直接消失了,咱也不知道到底具體bug在哪。我們看了思考過程,Hunyuan也在反復核實過程,并發(fā)現修正了幾處錯誤,但沒發(fā)現這個大bug。
至于成功的三者為何會分別這樣設置,我們仔細看了思維鏈過程,非常有意思。具體過程我們就不在此詳細展示了,畢竟DeepSeek R1直接就思考了5分鐘才開始答題,QWQ和Claude的思考過程也沒短多少,都在“腦內”寫了一篇論文。
簡單來說,DeepSeek R1是非常老實嚴謹地選擇了五邊形,并反復計算旋轉五邊形與小球相撞之后的方向、位置按物理規(guī)律會如何變化,為了符合運動軌跡,以及碰撞清晰、不跳出邊界,而花費了大量的計算步驟。
而Claude則是巧妙地設計了一個“障眼法”,以圓形為實際小球碰撞的邊界,但圓形邊界并沒有展現出來,而是畫了一個六邊形邊框(與圓形非常接近),讓小球看起來是在六邊形內運動,如下圖顯示。當然,這樣不可避免的讓小球在碰撞時會出現超出六邊形邊界的問題,Claude為此還設計了顏色轉變、方向箭頭這些額外的小花招來做“補償”。
不得不說,有一些智慧。
QwQ也很有意思,因為五邊形碰撞太過于復雜,所以主動選擇了橢圓形,并以極慢的速度減少撞擊頻率。
由于這個問題本身已經被多次測試了,我們在這一基礎上又額外要求小球變色、并根據點擊增加球數量、小球互相碰撞超過3次就會消除,等更多的復雜運動。結果是除了Claude以外,QwQ和DeepSeek都出現了幾處Bug,涉及到換行分隔符缺失、符號未解釋等小錯誤,但在提示后,很快就修正了,總體來說,表現不錯。
任務二:文本寫作
題目:閏土抓碴那天晚上,他在想什么?寫一段內心獨白。
在這里我們專門把猹錯誤地打成了碴,看看AI們能否有所察覺。
主觀來評判,令人意外的是:表現最好的是QwQ,寫得令人頭皮發(fā)麻。
閏土攥緊手中的鋼叉,指節(jié)在月光下泛著青白。猹從瓜藤間竄過的瞬間,他忽然想起三天前東家少爺問他”雪天捕鳥的法子”時,眼睛亮得像祠堂檐角新掛的琉璃燈。
那時他沒敢說,父親正催他去鹽場挑沙補堤,好換回半袋發(fā)霉的糙米。鋼叉尖擦過猹的脊背,濺起的露水打濕了他補丁摞補丁的褲腳。遠處海浪拍打著礁石,像極了母親臨終前斷斷續(xù)續(xù)的咳嗽聲。
閏土望著少爺書房窗欞透出的暖黃燭光,突然意識到那些《山海經》里的精怪故事,終究比田埂上的泥腳印更招人待見。”要是能變成少爺養(yǎng)在青瓷缸里的錦鯉就好了。”
他望著自己被鹽鹵浸得皸裂的手掌,想起前日里管家太太將一包碎銀子扔進籮筐時的響動。那銀子落進筐底的聲響,和此刻猹鉆進土洞的聲音竟有些相似。
瓜田盡頭的海面上浮起幾點漁火,閏土數了數,剛好是父親說的”閏月里要交的燈油錢”數目。鋼叉在掌心轉了個彎,他忽然明白為何少爺總愛盯著天邊的云彩發(fā)呆——那些飄來蕩去的云,大約和他竹匾里養(yǎng)的蟋蟀一樣,都是不用想明天該往哪塊地里刨食的。
短短400字完美詮釋了青春疼痛。不僅將自己為了生存而捕猹,與少爺閑趣的“雪天捕鳥”、“父親催挑沙”對比,刻畫了我與少爺、父親、管家、母親之間割裂的階級社會,還說自己艱難做工賺到的碎銀和“猹鉆土洞”一樣,甚至說出“想變成少爺青瓷缸里的錦鯉”,想和“少爺喜歡的云”、“竹匾里的蟋蟀”一樣不需要為了下頓飯而發(fā)愁的神句,我與猹、錦鯉、蟋蟀、云朵之間同樣割裂的自然世界里,孩子朦朧情感和愿望,越是童真自然,越暴露出階級躍升的荒誕和殘酷。你細品,再細品。
而DS則是選擇了中年疼痛路線,構建了“中年閏土”回憶“少年閏土”的復雜結構,有種用力過猛的炫技感:
月光像碎銀子灑在瓜田里,我這雙老繭疊著裂口的手,把鋼叉攥得發(fā)燙。三十歲的人,倒像是活過三輩子了。
爹留下的銅煙桿在腰后硌得生疼,可那縷青煙早二十年前就被海風吹散了。猹來了。我弓著脊背往瓜壟深處挪,忽然聽見耳后傳來一串銀鈴似的笑。轉頭卻只有月光在沙沙作響的瓜葉上打滾——那分明是二十年前我的笑聲。
月光里恍惚有個戴銀項圈的少年,正追著發(fā)光的翠色影子在瓜藤間跳躍,鋼叉上的紅纓子甩得像團火。腳底的血口子又裂開了,咸津津的汗順著脊梁往下淌。三張餓得發(fā)青的嘴在后半夜會變成六只枯手,死死扒著我的腸子??h衙催糧的梆子聲比猹啃瓜的動靜還瘆人,老爺們轎簾上晃的金流蘇,能把半畝瓜秧都絞成碎末。叉尖在月光下抖得像片枯葉。
前日給周家老爺磕頭時,青石磚縫里鉆出的野草撓著我的額頭。當年那個會往我手里塞麥芽糖的迅哥兒,怎么就成了鑲著金牙的影子?
猹的眼睛在暗處閃著綠瑩瑩的光,倒像極了周家管事夜里點的那盞洋油燈。
月光突然暗了暗,我猛地把鋼叉往泥里一插。鐵器撞在石頭上迸出火星,驚起田埂邊兩只夜鸮。瓜葉子上的露水震落下來,涼涼地滲進脖頸的褶子里——那里積著二十年的海風,咸得能腌出鹽晶。
而Hunyuan T1表現相對一般,從文章調性上選擇了與DS一樣的沉重驚悚感來突出舊社會階級的壓迫,遣詞造句也用了大量的細節(jié)事物來烘托氣氛,但段與段之間缺乏邏輯,整體缺乏故事主線,也沒有提到抓猹的當晚。
(深夜的雪粒子簌簌敲著窗欞,油燈在粗陶罐里跳動著暗紅的光。手指摩挲著褪色的銀項圈,冰涼的金屬硌得掌紋發(fā)疼)
“少爺…不,迅哥兒,這稱呼早被北風刮進沙地里去了。”喉結滾動著咽下后半句,咸澀的滋味漫過龜裂的嘴唇。
記得那年月,他光著膀子追著葦蕩里的鵓鴣跑,露水順著脖頸滑進衣領,比現在這破棉襖暖和得多。月光爬上屋檐時,墻根的狗叫得瘆人。猹的綠眼睛還懸在記憶里晃,可如今連逮只野兔都要提心吊膽——東家的地界越縮越小,像被蛀空的葫蘆殼。后槽牙碾碎煙絲,苦味混著黃連根的澀,這是他新學的下酒菜。
灶臺上老母雞咯咯叫著撞翻了水罐,濺起的水花驚醒了蜷縮在草垛里的孩子。那時候的迅哥兒會笑著兜住濺出來的水珠,說比星星還亮。
如今這星星倒成了地主宅院門框上的銅釘子,冷光刺得人睜不開眼。風聲裹著雪粒撲打窗紙,他忽然想起老栓的癆病老婆咳血的模樣。城里的洋學堂教人識字,可識了字的又能怎樣?當家的兒子抽大煙把田產賣光時,那些個搖頭晃腦的讀書郎早跟著知縣大人的轎子走了。
油燈芯爆出個燈花,照亮墻上歪歪扭扭的”福”字。這是他今早用豁口的鐮刀劈的,墨汁是用鍋底灰調的。灶王爺畫像咧著嘴笑,他不知道是該怨這世道不公,還是怪自己沒長出翅膀飛出這片黑泥潭。
遠處傳來更夫沙啞的梆子聲,三更天了。摸出貼身藏著的銀元,借著月光數了數——剛好夠給阿香買半斤紅糖。她裹著破布襖在祠堂后頭躲雪,肚子里還懷著沒見面的娃。要是能像從前那樣,抱著她往曬谷場跑,雪地里印滿腳印也算個念想。
狗突然狂吠著沖進雪幕,他抄起鐵叉沖出門,手電筒的光柱里閃過什么黑影。攥緊的拳頭微微發(fā)抖,不是猹,是巡夜的保鏢舉著火把過來了。退回門檻時踢倒了水罐,潑灑的冷水順著褲腳往下淌,倒比心口滾燙。
再來看我們單純的老外Claude,好吧,由于知識儲備不足,直接沒讀懂題:
今天和少爺一起抓了好多螢火蟲,他看起來真高興?。〕抢锖⒆泳共恢@些尋常事,我在他眼中倒成了本事人。躺在草鋪上,我望著黑暗中幾點星光,像極了我們抓到的螢火蟲。
少爺明天就要走了,不知何時能再見。他說將來要我去城里找他,那地方會是什么樣子呢?聽大人說城里房子高得很,街上車水馬龍。我這雙只會抓蟲子的手,在那里能做什么?爹說我明年就不能再上學了,要下地干活。少爺會一直記得我嗎?就像我永遠記得今晚的螢火蟲和他驚喜的眼神。唉,天亮后,一切又要不同了。
我得早點睡了,明天還要趕早去送他…
換個西方知識背景的考題可能更為合適,閏土屬實有點為難Claude了。
接著我們來看看思維鏈過程的表現。
寫得最好的QwQ在實時搜索的基礎上對題目場景的理解正確,然后在對角色社會關系、人物關系、社會背景的理解下進行創(chuàng)作,整體思考的過程比較普通,沒有寫得令人驚艷。
好的,用戶問的是“閏土抓碴那天晚上,他在想什么?”,需要結合提供的知識庫內容來回答。
首先,我需要確認“抓碴”具體指的是閏土在小說中的哪個情節(jié)。根據知識庫中的資料,特別是[2]、[7]、[10]提到的,閏土在瓜地里刺猹的情節(jié),這是《少年閏土》中的經典場景。
接下來,要分析閏土當時的心理活動。根據[5]和[6],閏土是周家的長工孩子,與魯迅是朋友,但后來生活困苦。在刺猹的夜晚,他可能感到責任重大,因為要保護瓜地不被破壞,這關系到家庭生計。
[5]提到閏土擔心猹、獾豬或刺猬破壞西瓜,導致少賣錢,這說明他可能有經濟壓力。
另外,[4]和[8]指出,閏土和魯迅的關系隨時間疏遠,成年后閏土稱呼魯迅為“老爺”,反映了社會階級的差異。
這可能暗示閏土在成長過程中逐漸意識到自己的社會地位,但在少年時,他可能還保有純真,但已經開始感受到生活的壓力。
需要結合這些點來構建閏土的心理:他可能既享受與魯迅的友誼,又感到作為底層勞工的責任,同時對未來有隱約的不安。
例如,[10]描述的場景中,閏土在月夜刺猹,表現出勇敢,但背后可能隱藏著對未來的不確定。還要注意用戶可能希望故事有深度,反映社會現實,如[9]提到的半封建半殖民地背景下農民的困苦。
因此,閏土的思考可能涉及對自身處境的無奈和對未來的迷茫。
最后,確保引用正確的來源,如使用[5]說明經濟壓力,[8]說明階級差異,[10]描繪場景等。需要自然地將這些引用融入回答,避免堆砌,保持敘述流暢。
而DS則是想得比寫得精彩多了。
先是一開始,盡管沒有理解到碴是什么,但在回顧資料中理解了題意。
嗯,用戶問的是閏土抓碴那天晚上他在想什么,需要寫一段內心獨白。
首先,我得確認閏土指的是魯迅小說《故鄉(xiāng)》中的閏土。抓碴可能是指抓偷東西的小偷,或者是某種當地的說法,可能需要確認具體情節(jié)。用戶可能對魯迅的作品有一定了解,但可能記不清具體情節(jié),或者想深入探討閏土的內心世界。
需要先回顧《故鄉(xiāng)》中閏土的故事,尤其是中年閏土和少年閏土的對比,以及他們重逢的場景。魯迅筆下的閏土經歷了生活的磨難,從活潑的少年變成麻木的中年農民。抓碴可能指的是看守瓜田,防止猹來偷吃,這在小說中有提到。所以用戶可能是指閏土在夜晚看守瓜地時的內心活動。
在創(chuàng)作中,DS先捋清了自己的思路,對閏土成長的理解,對社會背景的批判理解,并提出要注意語言風格符合時代;然后構思了一些具體意象作為元結構,這點非常值得學習,
例如月光碎銀、童年幻影所對應的碎片化句子,還非常注意與用戶的交流,提出先擬個方案給用戶,非常有乙方的自覺性。
接下來要考慮閏土的心理狀態(tài)。
年輕時充滿活力和希望,中年時被生活壓迫,變得沉默寡言。內心獨白需要反映他的變化,可能包含對過去的回憶、現實的無奈、對家庭的責任感,以及被社會壓迫的痛苦。用戶可能希望這段獨白既有文學性,又能體現魯迅作品的深刻社會批判。需要避免過于直白,而是通過細膩的描寫展現閏土的內心矛盾。還要注意語言風格,符合那個時代的特點,同時保持口語化,讓讀者感受到真實的情感。
可能需要加入自然環(huán)境的描寫,比如月光、瓜田、鋼叉,來烘托氛圍。最后,確保獨白符合人物性格,不過于夸張,同時揭示社會現實對他的影響,比如賦稅、家庭負擔、階級差異。這樣既回答了用戶的問題,又深化了主題。
我將按照您的要求創(chuàng)作一段魯迅筆下閏土的內心獨白。為了讓故事更生動,我會先梳理一些背景信息。請您看看以下內容是否符合您的預期。如果您有其他想法,可以隨時提出,我會進行調整。
故事梗概:月光碎銀:深藍夜幕下月光如碎銀灑落,三十歲的閏土攥著祖?zhèn)麂摬娑资毓咸?,像一尊凝固的青銅雕像。童年幻影:耳畔突然響起銀鈴般的笑聲,恍惚看見月光里有個戴銀項圈的少年,在瓜壟間追逐著發(fā)光的翠色猹。生活重負:喉頭滾動著咸澀的鹽霜,腳底開裂的血口與土地長在一起,后背壓著三張餓得發(fā)青的嘴和永遠繳不完的糧稅。階級鴻溝:記憶里少年迅哥兒的面容漸漸模糊成鎮(zhèn)上老爺們的輪廓,手中鋼叉終于垂落,月光在生銹的叉尖碎成齏粉。
在完成作品后,DS進一步解析了自己的構思,利用了時空折疊的蒙太奇手法、感官、色彩、器物與角色之間的多重映射對比,很好,今天又被AI上了一課。
接下來我們將深入剖析這段內心獨白的創(chuàng)作手法,并探討如何通過環(huán)境描寫與感官意象來呈現人物靈魂的蛻變過程。
創(chuàng)作解析時空折疊:通過”三十歲的人倒像是活過三輩子”的蒙太奇手法,將少年閏土與中年閏土折疊在同一時空。月光下的鋼叉既是現實工具,也是打開記憶的鑰匙,形成時空漩渦。感官煉金術:聽覺煉金:用”銀鈴似的笑”與”縣衙催糧的梆子聲”構建聽覺光譜,前者是記憶的殘響,后者是現實的鈍擊觸覺隱喻:”銅煙桿硌得生疼”暗喻父輩遺產的沉重,”野草撓著額頭”象征階級壓迫的細密疼痛色彩辯證法:月光從”碎銀子”到”生銹的叉尖碎成齏粉”,暗示純真信仰的崩解”金流蘇”與”綠瑩瑩的光”形成階級對立的色譜,資本家的奢靡與勞作者的饑饉在光譜兩端撕扯器物變形記:鋼叉從”紅纓子甩得像團火”到”抖得像片枯葉”,武器鈍化的過程正是人格異化的具象化呈現。最終插入泥土的鋼叉,成為插在理想墳塋上的墓碑。生態(tài)寓言:猹作為自然界的掠食者,與縣衙、周家老爺構成雙重捕食者意象。夜鸮驚飛時的露水,恰似被擠壓出的最后一滴人性甘露。如果您希望看到閏土在不同情境下的心理變化(如在周家重逢迅哥兒時的復雜心緒),或想探究魯迅筆下其他經典人物的深層心理(如孔乙己臨終前的意識流動),可以隨時告訴我,我們將共同開啟更豐富的文學心理探析之旅。
任務三:懸疑推理
第三個任務,我們選擇了一道犯罪側寫題,這一測試題在社交平臺上受到大量關注,但答對人數較少。
題目:請進行犯罪側寫,思維可以多方位發(fā)散,但要有推理基點,選擇你認為正確的選項,并推理還原事件最佳真相。
在鬧市區(qū)的多條巷子內連續(xù)數周發(fā)現多具遺體。死因均為脖子給扭斷;死者身份不一,職業(yè)為環(huán)衛(wèi)工人、流浪漢,保安等。遺體附近有用血/雜物/碎石拼寫的SOS,附近環(huán)境較嘈雜。
以下最大可能符合兇手特征的是:
1.兇手體型:a健壯 b瘦弱
2.家庭情況:a已婚 b 未婚
3.兇手年齡:a18-24 b30-45
4.兇手的殺人動機為:a城市清理 b政治動機 c自我保護 d泄憤
我們測試三者得到的結論是,Claude3.7 是abbb,Hunyuan、QwQ和DS都是abba。
第一個問題,關于兇手體型,四個AI都正確地選擇了a健壯,理由是扭斷脖子及受害人包括保安,指向犯罪嫌疑人必然是強壯者,并都意識到鬧市區(qū)犯罪需要有壓倒式的體力優(yōu)勢。推理合理,且思考非常全面。
第二個問題,關于婚姻狀況,四個AI都選擇了b未婚。他們的共同理由是作案時間自由度和獨立性的考慮,這個推理也相當合理。特別是DS和QwQ都提到了心理層面的孤立性分析,增加了論證的深度。
第三個問題,關于年齡段,四個AI都選擇了b30-45歲,認為這個年齡段既有體力又有成熟的心智和計劃能力,以及反偵查能力和社會經驗。
第四個問題,關于動機出現了分歧。
Claude3.7選擇了政治動機(b),針對底層人民,并擺出SOS標記,是某種社會訴求的表達,意圖通過這種殺人的極端方式引起社會對底層群體處境的關注。怎么說呢,通過殺人來呼吁關注該人群,感覺這個殺手非常變態(tài)。
而Hunyuan、QwQ和DS都選擇了城市清理(a),認為環(huán)衛(wèi)工、流浪漢、保安 ,屬城市邊緣群體,符合“清理”邏輯(兇手可能認為他們是“社會雜質”),其實和Claude有些類似,但Claude認為這種基于社會的報復,即是一種政治動機,而另外三者認為政治動機應該是基于政府人員的行動。
而正確答案實際上是,abbc,僅有少數用戶回答正確。這一案件實際上是一位經歷過戰(zhàn)場廝殺的軍官退伍后因為患有PTSD而將深夜的環(huán)衛(wèi)工人、保安、流浪漢視作敵人而犯罪,SOS是出于該兇手深層意識尋求自我保護的手段。
綜合來看,四個模型都有相對全面的思考,Claude和Hunyuan的分析較為簡潔,而QwQ有一定的編造成分,虛構了題干“初期可能因情緒失控或施虐傾向作案,后期符號出現頻率增加,暗示心理崩潰前兆。”DS的分析最為全面、細節(jié)豐富,堪稱卷王,還成功提到了兇手身份可能是“軍官”。
以下是詳細回答:
Claude3.7:
1、兇手體型:
a 健壯扭斷脖子需要相當大的體力和技巧,這不是瘦弱者能輕易完成的受害者包括保安,要制服這類警覺性較高的人需要較強的身體素質在嘈雜的鬧市區(qū)巷子內迅速制服受害者并完成犯罪,需要有壓倒性的體格優(yōu)勢
2、家庭情況:
b 未婚連續(xù)數周在鬧市區(qū)作案表明兇手有相當大的行動自由度未婚者通常有更多獨處時間,行動少受監(jiān)督能夠在不被親近人士發(fā)現異常行為的情況下持續(xù)作案此類連環(huán)犯罪統(tǒng)計學上更多是單身或獨居者所為
3、兇手年齡:
b 30-45具備足夠的體力完成暴力犯罪同時擁有成熟的心智與計劃能力這個年齡段往往已形成對社會的固定看法和評判標準年輕人(18-24)可能缺乏這種連續(xù)作案的耐心和計劃性
4、兇手的殺人動機:
b政治動機選擇特定社會底層群體作為目標,表明有意識地針對這類人群SOS標記是明顯的信息傳遞,而非隨機行為在鬧市區(qū)公共場所作案并留下標記,意在讓自己的”信息”被發(fā)現SOS作為國際通用求救信號,配合選擇的受害者群體,似乎在暗示這些被社會忽視的群體需要被關注和救助整體作案模式顯示兇手試圖通過暴力方式傳達某種社會批判或引起對特定社會問題的關注綜上所述,兇手最可能是一名30-45歲、身體健壯的未婚男性,出于政治動機進行殺人,意圖通過這種極端方式引起社會對底層群體處境的關注。
QwQ犯罪側寫分析及推理結論
1.兇手體型:
a 健壯推理基點 :
徒手扭斷頸部 需要較大爆發(fā)力,尤其是針對成年男性(如保安、環(huán)衛(wèi)工人)。瘦弱者通常缺乏此類力量,更可能使用工具作案。環(huán)境嘈雜但兇手仍能快速制服受害者,表明其體能優(yōu)勢可壓制目標,健壯體型更符合邏輯。
2.家庭情況:
b 未婚推理基點 :SOS符號 暗示兇手存在心理壓力或自我矛盾(如犯罪行為伴隨求救信號),未婚者更可能因社會孤立、精神疾病或極端理念驅動作案。已婚者通常需兼顧家庭責任,作案頻率和隱蔽性可能受限,而未婚者行動更自由。
3.兇手年齡:
b 30-45推理基點 :連續(xù)作案且選址在鬧市 需一定反偵查能力,年齡較大者(30-45歲)社會經驗更豐富,能長期規(guī)避警方追捕。死者多為底層職業(yè)者,可能與兇手因失業(yè)、社會地位落差產生“清理”執(zhí)念,此年齡段更易因現實挫折極端化。
4.殺人動機:
A 城市清理推理基點 :目標群體為環(huán)衛(wèi)工、流浪漢、保安 ,均屬城市“維護者”或邊緣群體,符合“清理”邏輯(兇手可能認為他們是“社會雜質”)。SOS符號 可能為兇手自我合理化犯罪的投射,如“替天行道”時的心理暗示(“SOS”代表對“被污染社會”的求救)。若為政治動機(B)或泄憤(D),通常需更明確符號或針對性攻擊(如針對特定機構),而“自我保護”(C)無法解釋多職業(yè)受害者。
事件真相還原兇手特征 :
年齡30-45歲 ,未婚 ,體格健壯 ,可能曾從事體力勞動或具備格斗技能。社會邊緣化 :長期失業(yè)、精神疾病或對城市“腐朽”產生偏執(zhí),認為通過清除“低等職業(yè)者”可“凈化”社會。
心理矛盾 :
SOS符號反映其自我合理化傾向(如“被迫執(zhí)行使命”),或因作案壓力產生求救幻想。作案模式 :選擇深夜或凌晨 在鬧市巷子伏擊受害者,利用環(huán)境嘈雜快速行兇并布置SOS符號。初期可能因情緒失控或施虐傾向作案,后期符號出現頻率增加,暗示心理崩潰前兆。
關鍵證據 :
警方需排查近期失業(yè)人員 、精神疾病患者 或曾接觸極端思想者(如反社會論壇)。SOS符號的書寫方式(如血跡來源)可能指向兇手與受害者存在間接關聯(如曾為環(huán)衛(wèi)工)。
結論 :
兇手極可能是30-45歲未婚健壯男性 ,因社會不滿產生“城市清理”執(zhí)念,SOS符號反映其極端理念與心理矛盾。
Hunyuan T1答案:
推理過程與分析:
1. 兇手體型:
健壯(a)關鍵證據:死者包括保安等可能具備一定反抗能力的職業(yè),且頸部被扭斷需較強爆發(fā)力或控制力。邏輯鏈:若兇手為瘦弱者(b),難以在短時間內制服多名不同職業(yè)的受害者(尤其面對保安時)。健壯體型更符合直接暴力犯罪的生理條件。
2. 家庭情況:
未婚(b)關鍵證據:
連續(xù)作案需長期脫離社會監(jiān)控,且有固定行動模式。邏輯鏈:已婚者(a)可能因家庭責任降低持續(xù)犯罪風險,未婚者(b)則更易隱藏行蹤,專注完成“清理任務”。
3. 年齡:
30-45歲(b)關鍵證據:案件跨度數周,表明兇手冷靜且有預謀,而非沖動型青少年。邏輯鏈:年輕群體(18-24歲)雖更具冒險精神,但缺乏縝密策劃能力;中年人(30-45歲)更可能系統(tǒng)性地選擇目標、規(guī)避偵查。
4. 動機:
城市清理(a)關鍵證據:受害者均為社會邊緣群體(流浪漢、環(huán)衛(wèi)工),現場遺留的SOS可能暗示兇手自詡“維護秩序”。邏輯鏈:排除政治動機(b):死者身份普通,無涉權力斗爭或意識形態(tài)沖突。排除自我保護(c):連環(huán)殺人非被動防御行為。排除泄憤(d):泄憤通常針對特定個體或群體,而非隨機選擇多職業(yè)受害者。鎖定城市清理(a):兇手可能以“凈化城市”為執(zhí)念,將流浪漢、環(huán)衛(wèi)工等視為“污漬”,通過極端手段“清除”。
案件真相還原:
兇手為一名30-45歲、未婚的健壯男性,可能曾從事城市管理相關工作(如城管、清潔工),因長期目睹底層群體的生存狀態(tài)(如流浪漢聚集、垃圾堆積)產生扭曲心理,自詡“城市守護者”。他以“清理”為名,選擇夜間人流密集的巷子作案,利用噪音掩蓋行兇動靜。受害者被扭斷脖頸致死后,他用血跡或雜物拼寫“SOS”制造受害者曾掙扎求救的假象,實則為自己賦予“拯救城市”的道德合理性。案件連續(xù)數周表明其計劃周密,甚至可能繪制了“清理路線圖”,直至警方介入打破其節(jié)奏。
DS 犯罪側寫與推理還原:
1. 兇手體型:
a 健壯推理基點:致死手段:徒手扭斷脖子需極強的爆發(fā)力與精準控制力,尤其針對成年男性(如保安),兇手需具備健壯體格或接受過專業(yè)訓練(如格斗、軍事背景)。
1.作案環(huán)境:
嘈雜鬧市區(qū)需快速制服受害者,避免反抗引起注意,力量壓制是關鍵。矛盾點:若兇手體型瘦弱,可能依賴工具或偷襲,但本案無工具痕跡,直接徒手作案更符合力量型特征。
2.家庭情況:
b 未婚推理基點:作案頻率與自由度:連續(xù)數周作案需大量時間蹲點、觀察和行動,未婚者更易脫離家庭約束,靈活出入夜間/凌晨時段(環(huán)衛(wèi)工、保安等職業(yè)活動時間)。
心理孤立性:針對底層群體的連環(huán)殺手常存在社會疏離感,未婚狀態(tài)可能加劇其與社會的割裂,進而通過“清理”行為獲得掌控欲。反常識點:已婚者可能因家庭責任減少作案沖動,但需結合其他特征綜合判斷。
3. 兇手年齡:
b30-45推理基點:體力與經驗平衡:30-45歲男性體能處于巔峰末期,同時具備足夠的社會經驗完成反偵查(如選擇嘈雜環(huán)境掩蓋行蹤、規(guī)避監(jiān)控)。
犯罪成熟度:連環(huán)殺手通常在30歲后進入“暴發(fā)期”,本案中規(guī)律作案、統(tǒng)一手法(扭頸)、符號化行為(SOS)均需長期心理建設和計劃能力。
矛盾點:18-24歲雖體力充沛,但沖動性強,難以持續(xù)數周冷靜作案,且符號化行為(SOS)更可能體現成年人的復雜心理投射。
4. 殺人動機:A 城市清理推理基點:目標群體特征:受害者均為城市底層勞動者/邊緣人群(環(huán)衛(wèi)工、流浪漢、保安),兇手可能將其視為“社會垃圾”,以“清理城市”為扭曲使命。符號化行為:用血/雜物拼寫SOS,可能是對社會的“警示”(如認為底層群體需要被“拯救”或“清除”),或通過制造混亂掩蓋真實動機。
排除其他動機:政治動機(B):若為政治訴求,應針對象征性人物或留下明確宣言,而非底層無關個體。自我保護(C):多個不同職業(yè)的受害者難以構成對同一兇手的直接威脅。泄憤(D):隨機攻擊底層群體更可能源于群體仇恨,而非針對個人的報復。
真相還原兇手畫像:
30-45歲健壯男性,未婚,可能從事體力勞動(如搬運工、建筑工)或曾有軍隊/安保背景,獨居且社交孤立。長期對城市底層群體抱有極端厭惡,認為其“污染”城市環(huán)境,通過扭頸殺人(高效且“干凈”)實現“清理”目的,并借SOS符號暗示社會“需要拯救”或自我合理化犯罪行為。
作案模式:選擇夜間/凌晨時段在鬧市巷子蹲守,尾隨落單的環(huán)衛(wèi)工、保安等目標,利用力量優(yōu)勢迅速扭頸致死。故意用現場雜物拼寫SOS,既制造警方調查干擾(偽裝成受害者求救),又滿足其“警示社會”的救世主情結。
漏洞與風險:頻繁在鬧市區(qū)作案易暴露行蹤,但兇手可能利用嘈雜環(huán)境掩蓋行動,或對地形極度熟悉(如曾為本地保安)。符號化行為(SOS)可能成為心理突破口,若其近期遭遇重大生活挫折(如失業(yè)、親人離世),可能進一步刺激犯罪升級。
結論:一起典型的“使命型連環(huán)殺人案”,兇手以扭曲的“城市凈化”為動機,針對底層群體實施暴力“清理”,需通過監(jiān)控排查、體力職業(yè)背景篩查及心理側寫鎖定嫌疑人。
任務四:策略規(guī)劃
最近也有不少網友在使用DS后,感嘆推理模型比人腦子更清醒,適合幫人做人生導師策劃,對此,我們設計了一道人生題目:大城市打工人的職業(yè)發(fā)展與人生平衡困境,看看四者里誰更懂人生。
背景設定為一名28歲的某一線城市互聯網公司中級工程師小張,面臨的復雜局面包括:
1、工作困境:a.現崗位每日20:00下班,年薪40萬(含獎金)b.有機會轉崗至核心項目組,但需每日23:00下班,年薪升至60萬(成功概率70%)c.現組有裁員風險(未來1年裁員概率30%),核心組更不確定但經歷有價值
2、家庭壓力:計劃6個月后結婚,未婚妻對生活有期望a.婚后2年內生育 b.共同購房首付需再存60萬(現有存款80萬) c.要求每日最晚21:30到家
3、個人發(fā)展:a.技術理想:希望5年內成為架構師(需額外投入200小時/年學習)b.健康隱患:體檢顯示頸椎病早期,醫(yī)生建議每日運動≥30分鐘
4、城市成本:a.目標房產均價8萬/㎡,最小戶型80㎡ b.當前房租6000元/月(剩余租期3個月)任務要求為:請設計量化決策模型,需包含:職業(yè)選擇分析(計算兩種選擇的收入差值、晉升概率、裁員風險對沖)、家庭計劃可行性驗證(購房時間表、生育準備金、通勤時間分配)、健康與學習資源分配(每日時間利用最優(yōu)解)、風險對沖策略(至少3種備選方案)、溝通方案設計(與未婚妻的談判要點清單)進階挑戰(zhàn)為:在思考過程中,建立時間價值計算模型(時薪換算+健康折損系數)、設計動態(tài)調整機制(設定2-3個關鍵決策節(jié)點),并加入宏觀經濟變量(如房價年漲幅8%、行業(yè)政策風險等)。
這是一個真實但又復雜的個人情況,QwQ和Hunyuan都選擇了留在原崗位,而Claude和DS都選擇了轉換崗位。
在具體分析中,QwQ和Hunyuan更傾向于認為未婚妻難以接受、健康風險大、學習時間難保證這三點無解,并沒有向DS和Claude一樣試圖與未婚妻談判,以及建立動態(tài)的健康檢測來規(guī)避風險。
而在計算過程中,考慮到推遲購房會帶來首付金額的大幅提升,QwQ向用戶推薦改購置小戶型,最終的方案可以達成各項目標要求。但對于是否轉崗,只對比了不同維度下轉崗與否的差異,沒有綜合多個維度來對比最終得失,因此對于顯得說服力不足。
QwQ的答案:
一、職業(yè)選擇分析
1. 收入差值與期望值計算現崗位:年薪40萬 × (1-30%裁員風險) = 28萬/年(期望收入)轉崗后:年薪60萬 × 70%成功概率 = 42萬/年(期望收入) 差值:42萬 – 28萬 = 14萬/年2. 裁員風險對沖-現崗位:30%裁員風險 → 需儲備6個月應急資金(40萬×50% = 20萬)-轉崗后:假設裁員風險升至40%(因核心組不確定性),但經驗價值可提升再就業(yè)競爭力(隱性收益)3. 職業(yè)發(fā)展價值- 轉崗后晉升為架構師概率提升(假設從20%→50%),5年內架構師年薪約80萬,現崗位晉升概率10%。
二、家庭計劃可行性驗證
1. 購房時間表目標首付:60萬(現有存款80萬,需預留20萬應急)房價年漲幅8% → 640萬×1.08 = 691萬(1年后),首付需207萬(30%) 結論:需在6個月內購房,否則首付缺口擴大至127萬(691萬×30% – 80萬)。2. 生育準備金- 2年內生育需儲備:醫(yī)療費10萬 + 嬰兒首年支出15萬 = 25萬 資金缺口:現有存款80萬 – 首付60萬 – 生育25萬 = -5萬 → 需額外儲蓄。3. 通勤時間分配- 現崗位:20:00下班 → 20:30到家(滿足未婚妻要求)- 轉崗后:23:00下班 → 23:30到家(違反要求) 矛盾點:轉崗直接導致家庭計劃沖突。
三、健康與學習資源分配
1. 時間約束方程每日固定時間:工作+通勤+睡眠(7小時)+運動30分鐘+學習33分鐘(200小時/年)現崗位:20:00下班 → 可用時間3.5小時(20:00-23:30) 分配:運動30分鐘 + 學習33分鐘 + 家庭時間2.5小時轉崗后**:23:00下班 → 可用時間0.5小時(23:00-23:30) 無法滿足運動與學習需求,健康風險加劇。四、風險對沖策略1. 應急儲蓄+保險- 現崗位:儲備20萬應急資金 + 頸椎病專項保險(年費5000元) – 轉崗后:增加收入用于高流動性理財(如貨幣基金)。
2. 技能變現副業(yè) – 利用技術能力接短期項目(預計月入5000元),覆蓋生育準備金缺口。3. 動態(tài)購房方案 – 6個月內購置小戶型(60㎡,總價480萬),首付144萬(30%),剩余存款36萬用于應急。
四、溝通方案設計談判要點清單:
1. 職業(yè)與家庭優(yōu)先級 – 強調轉崗對長期收入(5年累計差額70萬)和職業(yè)地位的提升。
2. 折中方案 – 提議婚后1年再生育,利用現崗位穩(wěn)定性完成購房。
3. 健康承諾 – 承諾每日居家運動(如瑜伽)+ 周末深度學習(4小時/周)。
4. 經濟透明化 – 共享家庭賬戶,明確首付、生育、應急資金分配比例。
進階挑戰(zhàn):動態(tài)模型與宏觀經濟變量
1. 時間價值計算模型時薪換算:現崗位:40萬/(250天×12小時) ≈ 1333元/小時 轉崗后:60萬/(250天×15小時) ≈ 1600元/小時 健康折損系數:轉崗后頸椎病惡化概率升至60% → 預計醫(yī)療成本增加3萬元/年,實際時薪降至1300元/小時。
2. 動態(tài)調整機制關鍵節(jié)點:3個月后:評估轉崗適應性及家庭滿意度 1年后:根據房價漲幅調整購房策略 3年后:根據晉升進度決定是否換城市/行業(yè)
3. 宏觀經濟變量房價漲幅8%:若推遲購房1年,首付需額外儲備50萬(640萬×8%×30%)。行業(yè)政策風險:互聯網監(jiān)管收緊概率40% → 轉崗后裁員風險升至50%,需預留更多應急資金。
最終建議
短期(6個月內):選擇現崗位,優(yōu)先完成購房與婚姻穩(wěn)定。中期(1-3年):利用副業(yè)補足收入缺口,同步準備架構師認證。長期(5年+):若行業(yè)風險可控,再考慮轉崗或跳槽至更靈活崗位。通過此模型,小張可量化權衡職業(yè)與家庭的短期沖突與長期收益,實現動態(tài)平衡。
Claude則是選擇爭取加入核心項目組,但協(xié)商工作時間彈性安排。在推理過程中,Claude最關注的是購房需求在核心組的顯著縮短,健康及家庭可以設置相應的動態(tài)考核機制來調整。
在計算過程中,Claude比QwQ更具金融敏感性,在基礎年薪與預期年薪的對比基礎上,還增加了加班帶來的時薪差異,和機會成本差異,來判斷這個錢賺得值不值,而后還基于健康風險,扣除了健康成本,更細致地對比了收入得失。
但和QwQ一樣的是,對于是否轉崗,只對比了不同維度下轉崗與否的差異,沒有綜合多個維度來對比最終得失,因此對于顯得說服力不足。
Claude的答案:
Hunyuan 同樣沒有考慮到兩個崗位、三種因素的綜合對比,但提到了三個影響因素的權重劃分,離得出答案還差最后一關。
混元的答案:
而 DS 則是唯一有綜合評判轉崗與否的,此處值得一個掌聲。
不過,仔細一看,這個評判的方式似乎沒有理論依據,計算公式是編造的 QAQ……但總體來說, DS的思考相比另外三者都更為全面的,比如,現崗位收入考慮到了裁員后收入為0,再比如,每個維度下都對兩個選擇有直觀的對比,“轉崗后,時間增值率為19.5%”,還有終于考慮到了伴侶的收入,以及考慮到伴侶生育所帶來的伴侶收入下滑。
DS的回答:
對于此類問題,DS還新增了一個風險提示,避免過度影響人類真實決策。
好了,問到這里,我們最后又加了一個考驗AI人性的問題。
此后,四個AI都重新選擇了不轉崗,并建議小張為長遠考慮以后轉行。
任務五:實時信息搜索
在AI搜索效率仍有待提高的當下,推理能力的加持,必定會對AI搜索帶來顯著的性能提升。但是由于Claude因為產品設計暫不支持,以及DS因為技術原因暫不支持 QAQ……我們只能測試QwQ和Hunyuan的聯網推理效果了。
我們的題目是:仔細搜索,最近一周全球發(fā)布上線了哪些新的大模型,簡單分析一下這些模型,點評一下為什么都在近日發(fā)布。
這個題目對AI搜索來說,并不簡單,凡是涉及到時間排序的,例如最近一周、首個等時間比較級問題,AI都很容易混淆。
先看Hunyuan這邊,終于到了它的主場,在高質量的微信內容之下,Hunyuan的答案是最全的,幾乎涵蓋了最新的模型,但也混進了錯誤答案,即英偉達優(yōu)化版DS以及開源代碼庫。
這也意味著光全是沒用的,對信息的理解也很重要。
Hunyuan:
近一周全球新發(fā)布大模型概覽(2025年2月21日-2月27日)
1. 英偉達優(yōu)化版DeepSeek-R1核心功能:基于Blackwell架構優(yōu)化,推理速度提升25倍,成本降低20倍,支持FP4量化技術減少顯存占用技術亮點:首次實現大規(guī)模模型推理效率的革命性提升,性能碾壓H100,成為低成本AI部署的新標桿發(fā)布背景:通過技術迭代搶占推理模型市場,同時鞏固與英偉達在AI基礎設施領域的合作生態(tài)
2. Anthropic混合推理模型核心功能:結合邏輯推理與直覺生成能力,性能逼近頂尖閉源模型,減少30%計算需求技術亮點:提出“AI推理新范式”,支持多步驟復雜任務處理,適用于科研與商業(yè)場景發(fā)布背景:Anthropic試圖通過差異化技術路線挑戰(zhàn)OpenAI與Google的壟斷地位
3. 阿里巴巴Qwen 2.1核心功能:開源視頻與圖像生成模型,支持多模態(tài)輸入,生成質量媲美Sora技術亮點:采用模塊化設計,降低高質量內容生產成本,吸引中小企業(yè)與創(chuàng)作者發(fā)布背景:響應短視頻與元宇宙內容需求,通過開源策略擴大技術影響力
4. xAI的Grok 3核心功能:宣稱超越ChatGPT與DeepSeek V3,新增“深度搜索”和“大腦模式”功能技術亮點:支持復雜問題推理與在線游戲開發(fā),強調對人類科學的加速作用發(fā)布背景:Elon Musk團隊試圖通過技術迭代鞏固xAI在AI應用層的競爭力
5. DeepSeek開源5個代碼庫核心功能:覆蓋自然語言處理與推理任務,支持開發(fā)者快速構建定制化AI應用技術亮點:基于2200萬用戶驗證的模型,推動低成本AI工具的普及發(fā)布背景:通過開源生態(tài)降低行業(yè)門檻,同時強化自身在推理模型領域的領導地位集中發(fā)布原因分析技術迭代窗口期:大模型性能提升進入瓶頸期,企業(yè)通過版本迭代爭奪技術話語權(如DeepSeek-R1優(yōu)化、Qwen 2.1升級)開源生態(tài)競爭:通過開源策略吸引開發(fā)者,構建技術壁壘(如DeepSeek、阿里)商業(yè)化落地壓力:企業(yè)需通過新模型展示技術實力,加速在醫(yī)療、教育等垂直領域的應用落地政策與資本驅動:全球AI投資向基礎設施傾斜,企業(yè)需通過技術突破爭取政策支持與資本青睞總結近期大模型發(fā)布呈現“技術優(yōu)化+生態(tài)擴張”雙主線,國內企業(yè)側重開源與垂直應用,國外巨頭聚焦算力與多模態(tài)能力。隨著AI從實驗室走向規(guī)?;瘧?,技術迭代速度與生態(tài)構建能力將成為競爭核心
而QwQ則是答案缺失太多了,居然都把自己忘記了。
根據提供的資料,最近一周(截至2025年2月26日)全球發(fā)布的新大模型及相關動態(tài)主要包括以下內容:新發(fā)布的大模型Grok 3(馬斯克旗下xAI團隊)特點:多模態(tài)能力增強,可能與特斯拉的自動駕駛或機器人技術結合,強調“改變未來出行體驗”[[7]]。
背景:馬斯克團隊延續(xù)Grok系列迭代,技術路線可能聚焦高效訓練與垂直場景應用。
DeepSeek-R1、GPT-o3-mini(司南團隊評測)特點:參與“以人為本”評測體系,強調學術研究場景的實用性,可能在邏輯推理或專業(yè)領域表現突出[[6]]。
背景:評測體系發(fā)布方(司南團隊)可能為第三方機構,推動模型性能標準化。其他未具名模型根據行業(yè)動態(tài),2025年開年科技公司密集發(fā)布新模型,普遍具備“更快速的回答能力”[[2]],推測可能涉及優(yōu)化推理速度或降低部署成本。集中發(fā)布的原因分析技術迭代加速大模型通過“蒸餾法”降低訓練成本(僅需“兩三千萬”),后發(fā)企業(yè)能快速推出競品[[4]],推動行業(yè)進入“高頻迭代期”。商業(yè)化壓力云廠商力推MaaS(Model-as-a-Service)模式,需通過新模型吸引企業(yè)用戶,例如華為云等通過促銷活動(如“828 B2B企業(yè)節(jié)”)搶占市場[[5]]。產業(yè)共識與場景落地大模型因通用性強、部署門檻降低,成為AI落地核心方向[[8]]。近期發(fā)布可能瞄準垂直領域(如學術研究、自動駕駛)以驗證商業(yè)化價值[[6]][[7]]。國際競爭與資本驅動中美科技巨頭主導競爭,資本投入集中(僅互聯網巨頭能承擔高昂成本)[[1]],導致技術突破窗口期集中。點評近期大模型密集發(fā)布,本質是技術、資本與市場三重因素共振的結果:技術層面:蒸餾法、開源生態(tài)(盡管存在數據細節(jié)缺失問題[[3]])縮短研發(fā)周期;資本層面:云服務與MaaS模式分攤成本,降低中小企業(yè)參與門檻;戰(zhàn)略層面:巨頭通過高頻發(fā)布維持技術話語權,新興企業(yè)(如DeepSeek)則試圖以差異化競爭破局[[9]]。未來競爭焦點可能轉向“場景適配能力”與“可持續(xù)商業(yè)模式”,而非單純參數規(guī)模比拼。
盡管DS沒有聯網,但我們依然可以從思考過程,看到DS、QWQ、Hunyuan對于搜索的區(qū)別。
DS思考最多的是“如何搜索信息”,包括自己的知識庫更新有截止日期,需要提醒用戶,以及從如何從常見企業(yè)模型發(fā)布節(jié)奏中,尋找新模型的發(fā)布跡象,以及各個大型公司例如科技巨頭、初創(chuàng)公司等等。
而QwQ和Hunyuan的思考過程集中在搜后信息確認中。Hunyuan尚且有大量高質量內容,但QwQ在簡單理解題干之后,只搜到了十條內容,一直在對以上內容進行反復確認思考。這一思路,也導致樣本量過少,從而漏掉了很多信息。
這樣看來,Perplexity和秘塔搜索這類套殼搜索產品,還是仍然有使用價值和市場空間的。
總結
總體來說,以上五大維度的實測,四款推理模型各展所長:
Claude 3.7在編程任務中表現更為出色,通過視覺化設計(如碰撞變色、方向箭頭)規(guī)避復雜物理計算,體現“工程化思維”;但寫作時受限于知識儲備,對《閏土》理解不足,顯示出對中文知識背景的缺失,并且受限于產品設計,未能參與信息搜索測試。
DeepSeek R1則是思考能力最強,編程時傾向于反復計算以確保準確性;文學創(chuàng)作選擇了”中年閏土”的復雜敘事結構;犯罪側寫時運用專業(yè)術語并采用排除法;策略分析更加細致入微;但因技術原因未能完成搜索測試,且在表達上太過于喜歡使用抽象概念、過于復雜化了。
Hunyuan在編程及寫作任務上欠佳,但深度思考過程也基本跟上了大部隊,并且在搜索環(huán)節(jié)表現最好。
而QwQ在使用感上更佳,盡管思維鏈路更加中規(guī)中矩,但在答題效果上并不比另外兩者遜色,甚至在文本書寫一輪中超過了過于炫技的DeepSeek,更重要的是,當前的QwQ還只是QwQ-max-preview版本,不是基于Qwen-2.5max的正式版本。
在這場推理模型大混戰(zhàn)中,當下的模型們還只是初版。在各大模型爭先開源,技術路線更加清晰的當下,我們有理由期待推理模型們更多的突破:或許是更接近人類的思維鏈條,更精準的多模態(tài)推理,甚至是全新的推理范式。
本文由人人都是產品經理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!