日韩人妻无码一区二区三区，观看国精品久久久一本，东京热精品中文字幕，妓女精品一区二区三区，婷婷色爱区综合五月激情，人妻系列无码专区五月九九，秋霞在线观看片无码免费爱片，欧美人成午夜福利视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

不吹也不擂，看看國(guó)內(nèi)各廠的chatbot都進(jìn)化到哪了？|（1）數(shù)據(jù)統(tǒng)計(jì)能力測(cè)評(píng)和高考數(shù)學(xué)題能力測(cè)評(píng)

產(chǎn)品蝶道

2024-06-21

0 評(píng)論 1663 瀏覽 4 收藏

25 分鐘

前段時(shí)間高考，作為這幾年大熱的大模型也被人拉出來(lái)評(píng)測(cè)了一番，從各個(gè)科目的表現(xiàn)來(lái)看并不是很理想——特別是在數(shù)學(xué)表現(xiàn)上。但是在打工人日常其實(shí)有不少數(shù)據(jù)統(tǒng)計(jì)、分析的工作，這時(shí)候的大模型，能否幫到我們？以及，表現(xiàn)怎么樣？

相信大家在日常工作生活中，都已經(jīng)體驗(yàn)過(guò)各類(lèi)chatbot了，像chatGPT、chatGLM、文心一言、通義千問(wèn)，還有近來(lái)上線的騰訊元寶等；那不知大家是否有一些使用心得和使用經(jīng)驗(yàn)或槽點(diǎn)呢？

我本人目前基本上，每天都會(huì)使用LLM來(lái)幫助我工作提效（但于我是否真的提效，還有待考證）~

我用的比較多的兩個(gè)場(chǎng)景是：

幫我“搜索內(nèi)容+整理內(nèi)容+按我要求的格式”輸出給我；
幫我“提煉一篇或多篇文章（pdf或網(wǎng)頁(yè)url）的要點(diǎn)”；

那除了上面這些場(chǎng)景，PM在日常工作中，還有一些【數(shù)據(jù)統(tǒng)計(jì)分析】的工作，比如查數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)，那這時(shí)候LLM，可否幫幫我們呢？

（雖然我們之前可能早已注意到，chatbot并不擅長(zhǎng)數(shù)據(jù)分析，但隨著各類(lèi)智能體框架和技術(shù)的演進(jìn)，相信一些廠商已經(jīng)能夠解決該問(wèn)題）

話不多說(shuō)，讓我們一起來(lái)看看吧…

一、國(guó)內(nèi)各家chatbot【數(shù)據(jù)統(tǒng)計(jì)能力】測(cè)評(píng)過(guò)程記錄、測(cè)評(píng)結(jié)論

這里，本人選取了chatGLM網(wǎng)頁(yè)版（智譜清言）、文心一言3.5網(wǎng)頁(yè)版（百度）、通義千問(wèn)2.5網(wǎng)頁(yè)版（阿里）、kimi網(wǎng)頁(yè)版（月之暗面）、騰訊元寶，進(jìn)行“chatbot數(shù)據(jù)分析”能力測(cè)試。

注：測(cè)評(píng)過(guò)程內(nèi)容較多，可跳過(guò)測(cè)評(píng)過(guò)程，先看測(cè)評(píng)結(jié)論。以下是測(cè)評(píng)內(nèi)容和測(cè)評(píng)結(jié)果。

1、我是先用了word文檔，直接測(cè)試，統(tǒng)計(jì)“某一列值=xx，共有多少條數(shù)據(jù)”

——發(fā)現(xiàn)不行。word就是沒(méi)法很好的完成數(shù)據(jù)統(tǒng)計(jì)分析功能；

2、接著換成了excel文檔，內(nèi)容和問(wèn)題不變。

——發(fā)現(xiàn)好了一點(diǎn)。智譜AI完勝，可以理解問(wèn)題，并自行判斷調(diào)用其內(nèi)部的何種工具來(lái)完成問(wèn)題，結(jié)果正確，還支持繪制圖表，并進(jìn)行更深層次的統(tǒng)計(jì)分析。文心一言還不支持解析excel。騰訊元寶還在卡BUG死循環(huán)的路上。kimi回答不正確。

3、——為了不冤枉各個(gè)廠商，我翻了bchabot全部功能（應(yīng)該沒(méi)遺漏），最后發(fā)現(xiàn)，我沒(méi)有冤枉文心一言、元寶、kimi~他們的數(shù)據(jù)統(tǒng)計(jì)分析就是不行~

4、關(guān)于2024高考數(shù)學(xué)題，星火、九章大模型、文心一言、智譜GLM4的表現(xiàn)如何？

2.1 實(shí)驗(yàn)一：使用word文檔，測(cè)試簡(jiǎn)單的【數(shù)據(jù)統(tǒng)計(jì)】功能

（1）實(shí)驗(yàn)時(shí)間：2024年6月17日

（2）實(shí)驗(yàn)人：南方蝶道

（3）實(shí)驗(yàn)過(guò)程記錄：

使用文檔：境內(nèi)深度合成服務(wù)算法備案清單（2024年6月） (1).docx

p.s. 共有492條數(shù)據(jù)，服務(wù)提供者=389條；服務(wù)技術(shù)支持者=103條；

測(cè)試輸入：

測(cè)試結(jié)果輸出：

（1）chatGLM-4.0網(wǎng)頁(yè)版-輸出結(jié)果：

（2）百度文心一言3.5網(wǎng)頁(yè)版-輸出結(jié)果：

回答報(bào)錯(cuò)、不正確。

第一次系統(tǒng)默認(rèn)調(diào)用【閱讀助手】插件，報(bào)錯(cuò)（這個(gè)插件總是報(bào)錯(cuò)，這是我遇到的第五六次了…）

第二次系統(tǒng)給的結(jié)果如下：

（3）阿里通義千問(wèn)2.5網(wǎng)頁(yè)版-輸出結(jié)果：

回答不正確

（4）kimi網(wǎng)頁(yè)版-輸出結(jié)果：

回答不正確

（5）騰訊元寶網(wǎng)頁(yè)版-輸出結(jié)果：

回答不正確

實(shí)驗(yàn)一結(jié)論：

可以看到，當(dāng)使用word文檔，對(duì)chatbot進(jìn)行數(shù)據(jù)統(tǒng)計(jì)提問(wèn)時(shí)，各個(gè)廠商的chatbot均不能完成任務(wù)，哪怕是簡(jiǎn)單的“統(tǒng)計(jì)某一列中值=XX 的行數(shù)等于多少” ，現(xiàn)階段的chatbot也不能完成。

okay，是輸入方式不對(duì)，我們改成 EXCEL文件作為輸入，進(jìn)行測(cè)試。詳見(jiàn)下面的實(shí)驗(yàn)二。

2.2 實(shí)驗(yàn)二：使用excel文件，測(cè)試簡(jiǎn)單的【數(shù)據(jù)統(tǒng)計(jì)】功能：統(tǒng)計(jì)某一列 [數(shù)值=xx] 的行數(shù)有多少

（1）實(shí)驗(yàn)時(shí)間：2024年6月17日

（2）實(shí)驗(yàn)人：南方蝶道

（3）實(shí)驗(yàn)過(guò)程記錄：

使用文件：24年6月備案通過(guò)名單.xlsx

p.s. 共有492條數(shù)據(jù)，服務(wù)提供者=389條；服務(wù)技術(shù)支持者=103條；

測(cè)試輸入：

測(cè)試結(jié)果輸出：

（1）chatGLM-4.0網(wǎng)頁(yè)版

下面結(jié)果表明：chatGLM不僅數(shù)據(jù)分析問(wèn)題可以計(jì)算正確，還可以繪制統(tǒng)計(jì)圖表~

再問(wèn)它一個(gè)統(tǒng)計(jì)問(wèn)題：“幫我統(tǒng)計(jì) 涉及“多模態(tài)”字樣的，且角色為 “服務(wù)技術(shù)支持者”的數(shù)據(jù)有多少條，并給出具體的數(shù)據(jù)行”

（2）百度文心一言3.5網(wǎng)頁(yè)版-輸出結(jié)果：

文心一言chatbot默認(rèn)的對(duì)話窗口，不支持解析excel。即不支持上傳excel文件，僅支持pdf、word和圖片類(lèi)型文件。

（3）阿里通義千問(wèn)2.5網(wǎng)頁(yè)版-輸出結(jié)果：

計(jì)算不正確

（4）kimi網(wǎng)頁(yè)版-輸出結(jié)果：

算了2遍，都不對(duì)。

（5）騰訊元寶網(wǎng)頁(yè)版-輸出結(jié)果：

自己報(bào)錯(cuò)，執(zhí)行不下去中斷了問(wèn)題。

再試一遍：還是同樣的報(bào)錯(cuò)。顯然，這不是偶發(fā)BUG。

報(bào)錯(cuò)問(wèn)題詳見(jiàn)：https://yuanbao.tencent.com/bot/app/share/chat/177e6bdd9125a1df7fdeac80574fd415

實(shí)驗(yàn)結(jié)論：

由實(shí)驗(yàn)二各個(gè)廠家chatbot的實(shí)際測(cè)試結(jié)果，“數(shù)據(jù)統(tǒng)計(jì)功能“哪家強(qiáng)？——相信大家也一目了然。

1、智譜AI（GLM-4）不僅給出了正確的計(jì)算結(jié)果，還可以給出相關(guān)問(wèn)題并繪制”數(shù)據(jù)分布圖表“；kimi給出了結(jié)論，但計(jì)算錯(cuò)誤；騰訊還在報(bào)錯(cuò)卡BUG執(zhí)行不下去的路上；百度還不支持excel數(shù)據(jù)分析，任重而道遠(yuǎn)~

綜上，智譜AI chatbot在【數(shù)據(jù)統(tǒng)計(jì)分析】的路上，進(jìn)化的最快、能力最強(qiáng)！

在2024年6月17這個(gè)時(shí)間節(jié)點(diǎn)，在”Excel數(shù)據(jù)統(tǒng)計(jì)&分析“這一命題任務(wù)上，chatGLM完勝！這一點(diǎn)毋庸置疑~ 它能夠分析問(wèn)題->自主判斷調(diào)用其系統(tǒng)內(nèi)部的【代碼生成助手】→自動(dòng)執(zhí)行任務(wù)→給出結(jié)果&且結(jié)果正確。

emmm，但本著開(kāi)放包容、不冤枉任何一家chatbot的原則，下面再深入看看，是不是各家chatbot有其它隱藏著的excel技能（如Excel數(shù)據(jù)分析智能體啥的），只是我沒(méi)有發(fā)現(xiàn)？

——嗯，下面再來(lái)深入看一看吧…

2.3 實(shí)驗(yàn)三：騰訊元寶、百度文心一言、阿里通義千問(wèn)、kimi chatbot【數(shù)據(jù)分析】功能深挖

(1）實(shí)驗(yàn)時(shí)間：2024年6月17日

(2) 實(shí)驗(yàn)人：南方蝶道

(3)實(shí)驗(yàn)過(guò)程記錄：

（3.1）百度chatbot–【數(shù)據(jù)分析】功能深挖，到底有沒(méi)有？

之前在實(shí)驗(yàn)二中，我們發(fā)現(xiàn)文心一言chatbot，壓根不支持在【對(duì)話框】中對(duì)excel類(lèi)型的文件進(jìn)行上傳和解析；

下面看一看其【插件商城】、【智能體中心】（百寶箱）里面是不是有相關(guān)的彩蛋？

（1）文心一言-【插件商城】截圖：

翻了一圈【文心一言-插件商城】，沒(méi)有看到【數(shù)據(jù)分析】相關(guān)的插件~

（2）文心一言-【百寶箱】截圖：

直接搜excel相關(guān)的智能體/指令，百寶箱搜索結(jié)果中給了4個(gè)，嗯，但是也沒(méi)有能干”excel數(shù)據(jù)統(tǒng)計(jì)分析“這件事的。

再試一試“代碼”、“sql”相關(guān)的：

至此，文心一言chatbot鑒定完畢，現(xiàn)階段（2024年6月）就是不支持【數(shù)據(jù)統(tǒng)計(jì)分析】，看來(lái)只能挪步至隔壁【千帆大模型平臺(tái)】了~~

后面翻一翻【千帆大模型】平臺(tái)上的智能體，是否有”數(shù)據(jù)統(tǒng)計(jì)分析“相關(guān)的。

（3.2）騰訊元寶–【數(shù)據(jù)分析】功能深挖

搜一搜元寶是否有 excel相關(guān)的智能體？——emmm，Nothing~（下圖是24年6月17日截圖）

再試一試是否有“代碼生成”（參照智譜AI）相關(guān)的智能體？——emm，也沒(méi)有。（下圖是24年6月17日截圖）

（3.3）阿里通義千問(wèn)–【數(shù)據(jù)分析】功能深挖

（1）通義千問(wèn)-效率導(dǎo)航-工具箱：無(wú)“數(shù)據(jù)分析”相關(guān)；

2）通義千問(wèn)-智能體：提供了excel相關(guān)的智能體，但是測(cè)評(píng)下來(lái)，智能體的功能單一、質(zhì)量不高，無(wú)法完成任務(wù)（如不支持傳excel文件、有1000的token限制等）；

（3.4）kimi–【數(shù)據(jù)分析】功能深挖

下面是kimi 的”kimi+“智能體列表全部的截圖（2024年6月17日），可以看到在這個(gè)節(jié)點(diǎn)，kimi智能體中心沒(méi)有【數(shù)據(jù)統(tǒng)計(jì)分析】相關(guān)的~

實(shí)驗(yàn)三結(jié)論：

看來(lái)，我沒(méi)有冤枉各家chatbot，真的沒(méi)有更多的數(shù)據(jù)統(tǒng)計(jì)分析能力…

二、各種PR稿鼓吹大模型可以做高考數(shù)學(xué)題，真的能嗎？

結(jié)論是：現(xiàn)階段，還不能~ 但有機(jī)會(huì)，任重而道遠(yuǎn)~~

這里給大家奉上一篇，我個(gè)人認(rèn)為寫(xiě)的不錯(cuò)的文章（《當(dāng)AI遇上高考數(shù)學(xué)題，4個(gè)大模型“考生”“成績(jī)單”出爐》，6月19日發(fā)表的，下稱(chēng)文章1），文章中的一些核心觀點(diǎn)和測(cè)評(píng)過(guò)程中遇到的大模型問(wèn)題，給大家分享一下（他山之石、可以攻玉）：

該篇文章選擇了4個(gè)大模型，分別是【星火大模型（v3.5版本）】、【文心一言（3.5版）】、【智譜清言（GLM-4）】通用大模型，和以數(shù)學(xué)能力見(jiàn)長(zhǎng)的教育垂類(lèi)模型：【九章大模型】。

測(cè)評(píng)數(shù)據(jù)：選取的是2024全國(guó)高考數(shù)學(xué)–新課標(biāo)1卷–客觀題部分，進(jìn)行測(cè)評(píng)。其中包括8道單選題、3道多選題、3道填空題。

此外，由于試題中存在圖形、大量數(shù)學(xué)符號(hào)，該篇文章，為防止以文本形式輸入題目產(chǎn)生偏差，統(tǒng)一選擇以圖片形式呈現(xiàn)題目并提供給大模型進(jìn)行解答。

測(cè)評(píng)表現(xiàn)和測(cè)評(píng)結(jié)果：

四位“考生”此次作答正確率：從高到低依次為星火大模型（85.71%）、九章大模型（78.57%）、智譜清言（28.57%）、文心一言（7.14%）。

盡管做題結(jié)果正確，但各個(gè)模型做題的推理過(guò)程，均禁不起推敲；

——那么究竟差在哪了？

“第一，題目識(shí)別上存在比較大的困難，涉及一些數(shù)學(xué)符號(hào)、分式等會(huì)影響識(shí)別效果，還有一些圖形、表格識(shí)別存在問(wèn)題，以及一些數(shù)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)的表述識(shí)別也不夠精準(zhǔn)。

第二，幾個(gè)大模型在邏輯推理能力上還存在不足。

第三是解題方法較為單一，大模型似乎只能按照固定的模板去答題，而不能依據(jù)題目的特征因地制宜地選擇最優(yōu)方法?！?/p>

——以上觀點(diǎn)，均來(lái)自《文章1》

（1）文心一言（v3.5）–2024年-高考數(shù)學(xué)客觀題表現(xiàn)

– 該篇文章測(cè)評(píng)中可以發(fā)現(xiàn)：

①文心一言具備讀取圖片內(nèi)容的能力，但無(wú)法識(shí)別僅帶有復(fù)雜分?jǐn)?shù)的公式和圖形。

– 例如單選題第3題，明明成功讀出題目中的“⊥”符號(hào)為“垂直”，卻在后面的步驟中理解為“平行”（題面中未出現(xiàn)任何平行相關(guān)字眼或符號(hào)），經(jīng)提示，文心一言發(fā)現(xiàn)理解錯(cuò)誤，卻在再次解答時(shí)又出現(xiàn)理解偏差。

——這就是大模型普遍均存在的讓人頭疼的“幻覺(jué)之一”（上下文矛盾問(wèn)題）；

②文心一言解答數(shù)學(xué)題并不是用數(shù)理邏輯，而是試圖用文字論證的方式去猜測(cè)一個(gè)接近的結(jié)果。
– 從單選題第5題的答題情況不難看出；

③文心一言幾乎對(duì)每一題都進(jìn)行了詳細(xì)的推理，但最終大部分題目都得出了錯(cuò)誤的答案。

④ 文心一言：優(yōu)秀的文科生，但理科真的差；

“文心一言在答數(shù)學(xué)題能力上雖然遜色，但通過(guò)一系列的追問(wèn)、對(duì)話可以發(fā)現(xiàn)，這位“考生”對(duì)語(yǔ)義語(yǔ)境的把控能力非常優(yōu)秀，很容易明白用戶在說(shuō)什么，在用戶補(bǔ)充提醒的時(shí)候，它很快就可以知道根據(jù)新信息去解釋上面的題目?！薄恼?。

（2）智譜清言（GLM-4）–2024年-高考數(shù)學(xué)客觀題表現(xiàn)

①智譜清言也存在上下文矛盾的幻覺(jué)問(wèn)題。

在第12題中，經(jīng)過(guò)一番分析后，智譜清言告訴用戶無(wú)法計(jì)算出結(jié)果。

在第13題中，智譜清言重復(fù)地分析、發(fā)現(xiàn)問(wèn)題、重新審視問(wèn)題，又一遍一遍地發(fā)現(xiàn)行不通，進(jìn)行了十輪以上的死循環(huán)（在我之前測(cè)試，我發(fā)現(xiàn)騰訊元寶也有這個(gè)問(wèn)題…后面和大家分享），直到人工點(diǎn)擊暫停才停下。

②智譜清言的解答比較簡(jiǎn)潔，一般會(huì)直接回應(yīng)題目，有一定的邏輯性和條理性。

③但答案不是特別詳細(xì)，也沒(méi)有深入分析。

④有些題目的回答和標(biāo)準(zhǔn)答案的匹配度不高，有些題目雖然答對(duì)了，但會(huì)漏掉一些關(guān)鍵點(diǎn)。

（3）星火大模型、九章大模型——2024年-高考數(shù)學(xué)客觀題表現(xiàn)

①如果說(shuō)文心一言是個(gè)“不錯(cuò)的文科生”，那么【星火大模型】和【九章大模型】，就是典型的“理科生”，雖然非常擅長(zhǎng)解題，但上下文語(yǔ)義語(yǔ)境的理解是它們的弱勢(shì)。

– 例如，當(dāng)用戶對(duì)【星火大模型】提出：

Q：“上面這道題可以再詳細(xì)分析一下嗎”時(shí)，星火并不能理解指向的是什么，而是回答：

星火大模型回答：“很抱歉，由于我無(wú)法看到您提到的具體問(wèn)題，所以無(wú)法為您提供更詳細(xì)的分析。請(qǐng)?zhí)峁﹩?wèn)題的詳細(xì)信息，以便我能夠更好地幫助您。”

–當(dāng)用戶對(duì)【九章大模型】追問(wèn)：

Q：“請(qǐng)你檢查一下這道題，D選項(xiàng)到底對(duì)不對(duì)”；

九章：“當(dāng)然可以，請(qǐng)您提供題目的具體內(nèi)容，包括選項(xiàng)D的表述，我會(huì)盡力幫助您檢查?！?/p>

——說(shuō)明其比較擅長(zhǎng)解題，但很難聯(lián)系上下文語(yǔ)境語(yǔ)義來(lái)與用戶互動(dòng)對(duì)話。并不明白用戶問(wèn)的是什么。

②九章大模型的部分解題過(guò)程也存在瑕疵。

在一道多選題中，九章大模型在推理中明明認(rèn)為C選項(xiàng)錯(cuò)誤，但最后又把C選為正確答案，“這個(gè)表述上下文之間沒(méi)啥邏輯關(guān)系，讓人摸不到頭腦?！鄙鲜鰯?shù)學(xué)專(zhuān)業(yè)人士指出。

② 星火和九章對(duì)題目的處理上：

1）九章大模型在圖片題目識(shí)別上，會(huì)先在輸入文本框中識(shí)別讀取出題面，并以文本形式呈現(xiàn)，用戶可在框內(nèi)確認(rèn)題目的準(zhǔn)確性。若發(fā)現(xiàn)識(shí)別錯(cuò)誤，點(diǎn)擊即可出現(xiàn)數(shù)學(xué)符號(hào)的輔助輸入工具欄，進(jìn)行編輯修改，防止題目讀取錯(cuò)誤。

2）而星火大模型，沒(méi)有上面這個(gè)步驟。直接回答，所以不知道題目識(shí)別環(huán)節(jié)理解了多少。

三、寫(xiě)在最后的一點(diǎn)思考

我的一些觀點(diǎn)：

1、PR稿吹得天花亂墜，但是實(shí)際落地，一堆工程問(wèn)題需要解決；

——這是因?yàn)閺S商需要“造夢(mèng)”，以獲得資本的青睞；

——所以我們要建好心里預(yù)期，不要抱過(guò)高期待；

2、新技術(shù)的出現(xiàn)，于世界、于我們都是好事，我們要擁抱它，同時(shí)需要給予它一些耐心和包容性~

3、大模型之于教育場(chǎng)景（輔導(dǎo)服務(wù)，課后點(diǎn)評(píng)，輔助解題等）有很多想象空間，但同時(shí)也有很長(zhǎng)的一段路要走…

寫(xiě)在最后：

1、希望本文對(duì)各位小伙伴了解chatbot能力和市場(chǎng)，有所幫助~~

但是但是，借用本文內(nèi)容的觀點(diǎn)和內(nèi)容，請(qǐng)注明來(lái)源鏈接~~ 禁止直接抄襲~

2、除了本文的chatbot【數(shù)據(jù)統(tǒng)計(jì)】能力測(cè)評(píng)外，本人還系統(tǒng)進(jìn)行了“AI搜索+寫(xiě)作”、“圖片理解”、“長(zhǎng)文檔解析和問(wèn)答”、“Agent搭建”等各項(xiàng)能力測(cè)評(píng)，后續(xù)有時(shí)間同大家分享~

本文參考資料：

[1]當(dāng)AI遇上高考數(shù)學(xué)題，4個(gè)大模型“考生”“成績(jī)單”出爐 — 新京報(bào)

本文由 @南方碟道原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App