「AI寫網(wǎng)文」哪家強(qiáng)?測(cè)評(píng)結(jié)果居然是……
作為生成式AI,如果應(yīng)用在寫作上,會(huì)發(fā)生什么樣的反應(yīng)?這篇文章,我們來測(cè)試一下當(dāng)前比較強(qiáng)的幾款生成式AI產(chǎn)品,看看起能力表現(xiàn)如何?
前面的文章里面我分享了一些運(yùn)用AI輔助網(wǎng)文創(chuàng)作的思路,回答都是采用GPT4和文心一言兩款大語言模型。其實(shí)現(xiàn)在市面上的大語言模型很多,對(duì)國內(nèi)的網(wǎng)文作者來說,方便獲取的產(chǎn)品除了文心一言,還有騰訊混元助手、阿里通義千問、訊飛星火等。
那么問題來了,面對(duì)這么多產(chǎn)品,哪一款在輔助網(wǎng)文創(chuàng)作方面的表現(xiàn)更好?今天我們就來測(cè)一測(cè)。我選擇了5款產(chǎn)品對(duì)比,分別是GPT4、文心一言3.5、騰訊混元、通義千問、訊飛星火,其中國內(nèi)產(chǎn)品的地址如下:
- 文心一言3.5:https://yiyan.baidu.com/
- 混元助手:https://hunyuan.tencent.com/bot/chat
- 通義千問:https://tongyi.aliyun.com/qianwen/
- 訊飛星火:https://xinghuo.xfyun.cn/
一、測(cè)評(píng)說明
既然要測(cè)評(píng)寫網(wǎng)文的效果,首先我們就需要明確,評(píng)價(jià)效果的維度和標(biāo)準(zhǔn)是什么?此次測(cè)評(píng)的思路如下:
- 寫網(wǎng)文大致可以分為創(chuàng)意、大綱、人物、行文四個(gè)方面,所以會(huì)從這四個(gè)方面來出題。同一類型的題目可能會(huì)變換不同題材多次提問,避免過于片面。
- 問題選取上,會(huì)更多圍繞情節(jié)和人物展開,沒有放太多背景和設(shè)定相關(guān)的內(nèi)容。
- 評(píng)價(jià)的維度包括新穎性、吸引力、與網(wǎng)文風(fēng)格的契合情況等,不同問題的考察維度不同,有些評(píng)價(jià)標(biāo)準(zhǔn)難以用語言描述,評(píng)價(jià)的方法是采用相同的提問,然后對(duì)五款產(chǎn)品的回答排序,按順序給1~5分,答案排名越靠前,得分越高。
- 以上方法測(cè)評(píng)的結(jié)果有一定主觀性,僅供參考。
接下來我們就看看幾款產(chǎn)品的表現(xiàn)吧。
二、測(cè)評(píng)情況
以下是測(cè)評(píng)問題及各款產(chǎn)品得分情況,為了方便閱讀,本文中沒有貼完整的問答,只給到得分。
1. 創(chuàng)意類
創(chuàng)意類問題主要測(cè)試AI提供小說創(chuàng)意的能力,這里準(zhǔn)備了6個(gè)問題,其中問題1~3用于測(cè)試AI基于特定類型(歷史、科幻、玄幻)生成創(chuàng)意的能力,問題4~6用于測(cè)試AI基于特定情節(jié)主題(重生、娛樂圈、規(guī)則怪談)生成創(chuàng)意的能力。
5款產(chǎn)品得分如下:
2. 大綱類
大綱類問題暫不考慮設(shè)定方面的生成,而是以情節(jié)主線設(shè)計(jì)為主,這里準(zhǔn)備了6個(gè)問題,用于測(cè)試AI面向不同主題(復(fù)仇、探險(xiǎn)、愛情、權(quán)謀、懸疑、升級(jí))編排情節(jié)的能力。
5款產(chǎn)品得分如下:
3. 人物類
人物類問題主要測(cè)試AI進(jìn)行人物設(shè)定、以人物為中心的故事創(chuàng)作能力,這里準(zhǔn)備了5個(gè)問題,用于測(cè)試不同類型人物(主角、反派、戀人、伙伴、競(jìng)爭(zhēng)者)生成能力。
5款產(chǎn)品得分如下:
4. 行文類
行文類問題主要測(cè)試AI進(jìn)行小說正文創(chuàng)作的能力,這里準(zhǔn)備了7個(gè)問題,其中問題18~21用于測(cè)試AI的描寫(環(huán)境、物品、人物、動(dòng)作)內(nèi)容生成能力,問題22~24用于測(cè)試AI情節(jié)(沖突、驚悚、儀式)擴(kuò)寫能力。
5款產(chǎn)品得分如下:
三、測(cè)評(píng)總結(jié)
再次聲明:針對(duì)AI寫作的測(cè)評(píng)缺少絕對(duì)客觀的量化標(biāo)準(zhǔn),測(cè)評(píng)過程中不可避免會(huì)有一定的主觀性和隨機(jī)性,所以以上結(jié)果僅供參考,大家也可以結(jié)合詳細(xì)的回答來重新評(píng)估。
以上即是對(duì)5款產(chǎn)品測(cè)評(píng)的詳細(xì)情況,按照排名,5款產(chǎn)品的總分情況如下:
按照24個(gè)問題的得分分布,這5款產(chǎn)品的雷達(dá)圖分別如下:
由于每個(gè)分類下的問題數(shù)量不同,這里我也按照類別重新計(jì)算了一下,計(jì)算方法是取每個(gè)類別得分的平均值,以便于查看每款產(chǎn)品在不同維度的輔助創(chuàng)作能力如何。如此計(jì)算出來的得分分布如下:
從此次測(cè)評(píng)情況來看,可以得出如下結(jié)論:
- 排名得分主要基于5款產(chǎn)品的相對(duì)表現(xiàn),如果細(xì)查回答內(nèi)容可以發(fā)現(xiàn),現(xiàn)有生成式AI在輔助網(wǎng)文創(chuàng)作上還存在比較大的提升空間,表現(xiàn)并不非常如人意。
- GPT4各項(xiàng)得分多處于中游水平,導(dǎo)致不管按照問題還是按問題類別計(jì)算,總計(jì)得分都?jí)|底。從這些回答內(nèi)容來看,GPT4對(duì)網(wǎng)文創(chuàng)作的理解、文化傾向都不是很契合。
- 訊飛星火在行文上,相較于其他產(chǎn)品來說表現(xiàn)較為突出。浮夸和虛無是AI寫作的兩大典型特征,個(gè)人認(rèn)為目前訊飛星火在及格線之上。
除此以外,文心一言3.5、混元助手、通義千問的表現(xiàn)其實(shí)差不太多,沒有太多可圈可點(diǎn)的地方。
以上打分與排名主要基于我的判斷,有一定主觀性。不同作者在創(chuàng)作網(wǎng)文的時(shí)候,會(huì)有自己的創(chuàng)作偏好和習(xí)慣,評(píng)價(jià)思路或許會(huì)和我不同。大家不妨親自動(dòng)手試一試,或是拿完整的測(cè)評(píng)內(nèi)容自行排序打分,說不定結(jié)果會(huì)有所差異。
如今,網(wǎng)文已經(jīng)歷了二十多年的發(fā)展,早已與傳統(tǒng)小說漸行漸遠(yuǎn),在構(gòu)思、行文上都有其獨(dú)特的方法。針對(duì)特定的題材,網(wǎng)文也已經(jīng)形成一些固有的框架。
生成式AI想要?jiǎng)偃屋o助網(wǎng)文創(chuàng)作的工作,還需要更懂網(wǎng)文一些。
專欄作家
不知,微信公眾號(hào):不知,人人都是產(chǎn)品經(jīng)理專欄作家。B端產(chǎn)品人,擅長產(chǎn)品規(guī)劃、產(chǎn)品設(shè)計(jì)等
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!