AI產(chǎn)品調(diào)研-文心一言 、扣子

1 評論 2901 瀏覽 18 收藏 21 分鐘

文心一言算是國內(nèi)大模型的佼佼者,而扣子則在智能體方面有著不錯的表現(xiàn)。在一些常見的場景上,這兩個模型都有什么樣的表現(xiàn)?這篇文章,我們看看作者的分析。

一、文心一言

1.1 分析目的

了解文心一言當(dāng)前產(chǎn)品現(xiàn)狀與最新功能解讀。

1.2 產(chǎn)品基本信息

1.研發(fā)公司:百度

2.官網(wǎng):https://yiyan.baidu.com/

3.產(chǎn)品定位:治愈系智能產(chǎn)品,以聲音和科技為媒介,為人們提供溫暖治愈和關(guān)懷(對話機(jī)器人)

4.面向用戶:廣泛消費(fèi)者與企業(yè)用戶,如IT互聯(lián)網(wǎng)從業(yè)者、教育工作者與學(xué)生、中小企業(yè)等

5.使用情況:用戶量4.3億(截止24.11.12,百度世界2024大會宣布)

1.3 核心業(yè)務(wù)

1.3.1 基礎(chǔ)能力

理解能力:理解上下文,為用戶提供快捷的知識獲取方式

生成能力:生成高質(zhì)量的文本內(nèi)容、圖片、代碼等,例如新聞報(bào)道、小說創(chuàng)作等

邏輯能力:復(fù)雜的邏輯難題、數(shù)學(xué)計(jì)算均可幫助用戶解決

記憶能力:多輪對話后,仍然記得很早之前文本中的重點(diǎn)等

1.3.2 主要業(yè)務(wù)場景

生活助手:如美食推薦、運(yùn)動規(guī)劃等

情感陪伴:如心理咨詢、閑聊陪伴、人際交往等

職場提效:如文案撰寫、輔助編程等

休閑娛樂:如歌單推薦、頭像生成等

學(xué)習(xí)成長:如技能學(xué)習(xí)、論文提效、學(xué)習(xí)規(guī)劃等

1.4 產(chǎn)品體驗(yàn)

1.4.1 產(chǎn)品功能

1)對話

更貼合國人的交流習(xí)慣:智能伙伴,既能寫文案、想點(diǎn)子,又能聊天、答疑解惑,支持多模態(tài)形式,工作生活提效。

來源:文心一言

2)智能體

可根據(jù)需要創(chuàng)建自己的智能體,也可在智能體廣場直接使用某一垂類場景他人已發(fā)布的智能體,快速上手。

來源:文心一言

3)百寶箱

參考指令(Prompt):提供各場景、各職業(yè)的專業(yè)指令參考,輔助快速生成內(nèi)容。

來源:文心一言

4)社區(qū)(僅App)

用戶交流社區(qū),可對自有內(nèi)容或他人內(nèi)容進(jìn)行分享學(xué)習(xí),增加用戶粘性。

來源:文心一言

1.4.2 使用體驗(yàn)

1)錯誤辨識(與Kimi、通義千問對比)

結(jié)論:回答正確、沒有亂說,相比Kimi、通義千問,文心一言在家庭關(guān)系狀態(tài)類的問題上表現(xiàn)更好一些。

●詢問一些經(jīng)典問題

(1)貓為什么會飛?

結(jié)論:均回答正確,且給出了其他可能出現(xiàn)的場景例子。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

(2)1+1在什么情況下等于3?

結(jié)論:均回答正確,且都給出了一些可能等于3的場景例子。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

(3)爺爺奶奶能不能結(jié)婚?

結(jié)論:文心一言結(jié)合法律法規(guī)的基礎(chǔ)上,補(bǔ)充了常規(guī)觀念。

來源-文心一言:24/11月測試

來源-Kimi:24/11月測試

來源-通義千問:24/11月測試

2)智力

結(jié)論:計(jì)算能力有所提升、并更細(xì)化了思考步驟;不過偶爾出現(xiàn)題目太繞,導(dǎo)致很難明白問題本質(zhì)原因的情況。

●詢問計(jì)算、腦筋急轉(zhuǎn)彎問題

(1)5年前,媽媽年齡是兒子的7倍,兒子今年9歲,媽媽今年多少歲?(與文心一言23年表現(xiàn)對比)

結(jié)論:相比去年文心一言計(jì)算準(zhǔn)確性提升了。

來源-文心一言:23/4月CSDN文章

來源-文心一言:24/11月測試

(2)有兩個人決定進(jìn)行自行車比賽,看誰的自行車跑的快,比賽在一個平坦寬敞的體育場里進(jìn)行,但當(dāng)比賽開始時,他們兩個卻誰也不愿意領(lǐng)先,反而都在慢悠悠的騎,已知他們兩人都不會互相謙讓,也沒有外來因素干擾,總之,一切都很正常,這究竟是為什么呢?(正確答案:因?yàn)閮扇嘶Q了自行車)

結(jié)論:較長的腦筋急轉(zhuǎn)彎,文心一言并沒有給出準(zhǔn)確答案,只推測出現(xiàn)象的可能原因。

來源-文心一言:24/11月測試

3)表達(dá)

結(jié)論:表達(dá)比較清晰,會突出核心重點(diǎn);不過在部分問答時,沒有分點(diǎn)式說明,不如ChatGPT更有閱讀意愿。

●潤色文章

結(jié)論:按照提示詞要求潤色文章,語句通暢,表達(dá)比較不錯。

(1)Prompt

我有一段文字,內(nèi)容如下:

GPT是LLM的一種特定實(shí)現(xiàn),通過海量數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,能夠識別人的語言、執(zhí)行語言類任務(wù),并擁有大量參數(shù)。它使用Transformer架構(gòu),并通過大規(guī)模的預(yù)訓(xùn)練,學(xué)習(xí)語言的模式和結(jié)構(gòu);ChatGPT則是基于這些內(nèi)容而實(shí)現(xiàn)出來供我們使用的產(chǎn)品。

要求:我希望你對其進(jìn)行潤色,讓這段文字更清晰,使用親和的風(fēng)格、嚴(yán)肅的語氣、傳達(dá)核心知識。

完成潤色后,希望你能解釋一下你是如何改動的。

限制:500字以內(nèi)。

2)結(jié)果截圖

來源-文心一言:24/11月測試

●用戶情感

結(jié)論:文心一言和ChatGPT在語言風(fēng)格和處理邏輯上有較大的差異,ChatGPT的回答兼具程序化和人文關(guān)懷,而文言一心雖然更加貼近自然地溝通交流,但不像ChatGPT保持分點(diǎn)式回答,閱讀意愿上在對比中文心一言這一塊的表現(xiàn)稍弱。

來源-文心一言:24/11月測試

來源-ChatGPT:24/11月測試

4)速度

結(jié)論:使用過程中,文心一言AI回答的速度基本分布在2~5秒之間,相比Kimi、通義千問模型稍快一些。

5)專業(yè)能力

結(jié)論:提供多場景、各行各業(yè)的專業(yè)指令關(guān)鍵詞供用戶使用,可幫助用戶更高效的完成各種任務(wù);專業(yè)領(lǐng)域問題有待辨識。

●一言百寶箱

結(jié)論:多樣化的場景提示詞供用戶使用。

來源-文心一言:24/11月測試

來源-文心一言:24/11月測試

●專業(yè)領(lǐng)域問題

結(jié)論:專業(yè)領(lǐng)域問題答案有待辨識。

(1)患者,女,29歲,因有機(jī)磷中毒入院治療,在治療過程中出現(xiàn)阿托品中毒,應(yīng)立即給予什么治療?(教科書類內(nèi)容查詢答案為:輸液及毛果蕓香堿)

來源-文心一言:24/11月測試

6)亮點(diǎn)功能

AI繪畫是文心一言的亮點(diǎn)功能,其他大模型如Kimi、通義千問沒有的能力,并且畫質(zhì)相比2023年也提升了很多。

來源:23/4月CSDN文章

來源:24/11月測試

1.5 技術(shù)架構(gòu)

文心一言底層基于Transformer結(jié)構(gòu),依托飛槳、文心大模型開發(fā)的。這種架構(gòu)使其具備卓越的自然語言處理能力,能夠理解和生成文本,完成各種任務(wù)。

1.6 總結(jié)

● 優(yōu)勢

  1. 在模型能力上,相比較Kimi、通義千問,文心一言擁有多模態(tài)能力,如文本生成、圖像生成等。
  2. 在內(nèi)容風(fēng)格上,相比ChatGPT更有人情味,文心一言的內(nèi)容語氣更親和、溫和。
  3. 在AI繪畫上,畫圖功能有了很大提升,畫質(zhì)更清晰,之前出現(xiàn)的圖片胡亂生成的情況變少了。

● 劣勢

  1. 文字的處理及創(chuàng)作上,豐富的感情和思想內(nèi)涵還是目前AI做不到的。
  2. 部分用戶情感類問題回復(fù)不如ChatGPT有條理性。
  3. 在處理專業(yè)領(lǐng)域的問題時,準(zhǔn)確性有待辨別。

二、扣子(coze國內(nèi)版)

2.1 分析目的

了解扣子產(chǎn)品現(xiàn)狀與功能體驗(yàn)。

2.2 產(chǎn)品基礎(chǔ)信息

1.研發(fā)公司:字節(jié)跳動

2.官網(wǎng):https://www.coze.cn/home

3.產(chǎn)品定位:新一代AI應(yīng)用開發(fā)平臺。

4.用戶體量:月訪問用戶數(shù)200萬左右(來源:截至24/6月Similarweb數(shù)據(jù))

5.面向用戶:

2.3 為什么要做扣子?

1. 行業(yè)內(nèi)對Agent的廣泛關(guān)注

很多業(yè)界的人把大模型的出現(xiàn)比作當(dāng)年移動互聯(lián)網(wǎng)的出現(xiàn),移動互聯(lián)網(wǎng)的應(yīng)用呈現(xiàn)是App,很多業(yè)界人士統(tǒng)一認(rèn)知,AI應(yīng)用的呈現(xiàn)形式是Agent;字節(jié)的另一款產(chǎn)品“豆包”,主要的呈現(xiàn)形式就是一個綜合性的AI智能體平臺,可見Agent在其產(chǎn)品里的認(rèn)知很深刻。

2. 人工智能領(lǐng)域需要一個快速構(gòu)建AI應(yīng)用的平臺

移動互聯(lián)網(wǎng)時代有快速構(gòu)建App的標(biāo)準(zhǔn)技術(shù),發(fā)布App的應(yīng)用商店,那AI時代的應(yīng)用開發(fā)平臺是什么?應(yīng)用發(fā)布平臺又是什么呢?這個時代需要有一個更低的門檻,幫助用戶快速構(gòu)建AI應(yīng)用。

3. 豆包的發(fā)展加速了扣子的研發(fā)

豆包早期平臺內(nèi)的智能體是由官方為了豐富AI引用場景,發(fā)布了20多個官方智能體,包括寫作助手、圖片生成等,但后續(xù)將創(chuàng)建智能體交給了第三方和用戶,推測豆包官方感受到了創(chuàng)建智能體的有限性,要促進(jìn)AI智能體的生態(tài),需要一個更專業(yè)的AI智能體開發(fā)平臺。

2.4 核心能力

1. 快速開發(fā)AI應(yīng)用、智能體

無編程基礎(chǔ)也可使用,快速搭建智能體。

2. 靈活的模型選擇與編排

1)Prompt(可自動優(yōu)化已編輯的提示詞)

提示詞編寫,是用戶創(chuàng)建智能體最基本的技能,很多智能體,通過精心的編排和設(shè)計(jì)提示詞基本都能達(dá)到比較好的效果,扣子提供了提示詞優(yōu)化的功能,不過沒有提示詞模板,對于沒有提示詞基礎(chǔ)的用戶,可能不是很友好。

來源:扣子-創(chuàng)建智能體

2)插件(700多個)

插件是構(gòu)建AI應(yīng)用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具備搜索引擎、網(wǎng)頁內(nèi)容查詢等能力,構(gòu)建AI應(yīng)用的過程中,不僅需要大模型的基礎(chǔ)能力,還需要把大模型武裝起來,這時候就需要插件來支持,插件本質(zhì)是各種API服務(wù),扣子通過調(diào)用這些API來實(shí)現(xiàn)各種功能。

扣子可根據(jù)左側(cè)的提示詞,自動生成一些插件,提高用戶操作效率。

第三方大模型:插件中還包含第三方模型服務(wù),如通義千問等,用戶可根據(jù)需要自行選擇模型。

來源:扣子-創(chuàng)建智能體

3)知識庫(可自建/上傳)

幫助模型學(xué)習(xí)更多知識,解決一些專業(yè)問題,在解決一些垂直行業(yè)的問題,提供知識庫是非常有必要的,也是提高模型生成內(nèi)容的準(zhǔn)確性,扣子可自建/上傳本地文件、網(wǎng)頁、筆記、數(shù)據(jù)表、圖片等。

來源:扣子-創(chuàng)建智能體

4)記憶能力

由于部分模型存在一些上下文限制,模型的記憶能力有限,若需讓產(chǎn)品有長期記憶的能力,扣子提供了變量、數(shù)據(jù)庫、文件等長期記憶功能。

來源:扣子-創(chuàng)建智能體

5)工作流(編排服務(wù),提供模版)

對于需要通過一系列流程、規(guī)劃才能實(shí)現(xiàn)的AI應(yīng)用,工作流功能提供了比較好的編排服務(wù),對于有編程基礎(chǔ)的人員是比較好的體驗(yàn),不過對于不會編程的人員,使用起來還是有門檻的,好在扣子提供了工作流模板,在一定程度上降低了部分功能門檻。

來源:扣子-創(chuàng)建應(yīng)用

3. 應(yīng)用發(fā)布

1)與集成多渠道發(fā)布豆包、扣子商城、應(yīng)用分發(fā)平臺、社交媒體賬號平臺、開

發(fā)者社區(qū)。

2)與外部系統(tǒng)集成。

4. 商店

用戶可以將自己創(chuàng)建的智能體發(fā)布到商店,也可在商店直接使用他人已發(fā)布的智能體,提高效率。

來源:扣子-商店

2.5 用戶痛點(diǎn)與需求

1.AI應(yīng)用自研的門檻高,投入成本大

2.單一的AI應(yīng)用功能擴(kuò)展性差,資源集成工作量大

3.應(yīng)用場景復(fù)雜多變(用戶需求多樣,且個性化,難以找到解決個性化需求的AI應(yīng)用)

2.6 商業(yè)模式

主要向開發(fā)者收費(fèi),較典型的SaaS增值付費(fèi)模式,分為基礎(chǔ)版與專業(yè)版。

1.基礎(chǔ)版

1)基礎(chǔ)應(yīng)用開發(fā)能力:限制團(tuán)隊(duì)可使用人數(shù)、知識庫使用空間、API調(diào)用量等。

2)模型使用權(quán)限:可使用的模型有限,更多模型需開通專業(yè)版。

3)AI應(yīng)用使用量:發(fā)布到扣子商店后,限制AI應(yīng)用的使用量。

2.專業(yè)版

1)基礎(chǔ)應(yīng)用開發(fā)能力擴(kuò)充:不限制API調(diào)用次數(shù)等,限制調(diào)用頻率等。

2)可使用模型種類增多:可使用火山方舟上更豐富的模型與版本。

3)AI應(yīng)用使用量、調(diào)用量不做限制:按照專業(yè)版計(jì)費(fèi)方式收費(fèi)。

2.7 挑戰(zhàn)與難題

1. 對于沒有編排基礎(chǔ)的用戶

1)產(chǎn)品的使用難度還是比較高

2)使用關(guān)鍵配置功能門檻較高

3)模型效果難以達(dá)到預(yù)期

2. 對于有編排基礎(chǔ)的用戶

1)智能體的商業(yè)變現(xiàn)模式還不清晰

2)開發(fā)者缺乏專業(yè)、豐富的知識庫資源

三、總結(jié)

字節(jié)的扣子應(yīng)用降低了AI開發(fā)門檻,集成豐富的插件與強(qiáng)大的功能,支持快速構(gòu)建、部署AI Bot,并一鍵發(fā)布至多平臺,操作簡單、功能豐富;但目前只能部署到有限的應(yīng)用中,無法將機(jī)器人嵌入到更多的應(yīng)用中,降低了系統(tǒng)的靈活性和適用性。

本文由 @不知名產(chǎn)品露 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這倆感覺并不是一類產(chǎn)品,用來橫評略有些不合適

    來自廣東 回復(fù)