如何讓DeepSeek生成讓人滿(mǎn)意的回答?試試專(zhuān)業(yè)知識(shí)庫(kù)

0 評(píng)論 1934 瀏覽 3 收藏 13 分鐘

。AI 的回答質(zhì)量高度依賴(lài)其調(diào)用的知識(shí)庫(kù)內(nèi)容,而當(dāng)前互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊,甚至存在大量 AI 自身生成的“幻覺(jué)”內(nèi)容,這給 AI 的學(xué)習(xí)和輸出帶來(lái)了極大挑戰(zhàn)。為了解決這一問(wèn)題,搭建專(zhuān)業(yè)知識(shí)庫(kù)成為關(guān)鍵

當(dāng)我們跟AI交互,AI沒(méi)有給出我們預(yù)期的結(jié)果,原因可能是我們沒(méi)有把我們的需求說(shuō)清楚,沒(méi)有正確地提出問(wèn)題,對(duì)此可以用提示工程(Prompt Engineering)來(lái)解決。這是我們第一篇文章聊的話題。

隨著AI的進(jìn)化和推理模型的推出,大大降低了對(duì)提示工程的依賴(lài),正確提需求如果不再是一個(gè)問(wèn)題,但AI還是沒(méi)有給出我們想要的答案,那可能是AI調(diào)用的知識(shí)庫(kù)(數(shù)據(jù)源)本身有問(wèn)題,或者說(shuō)缺乏相關(guān)領(lǐng)域的知識(shí)。

為什么要搭建專(zhuān)業(yè)知識(shí)庫(kù)

不知道你有沒(méi)有發(fā)現(xiàn),AI在回答我們的提問(wèn)前,會(huì)先進(jìn)行搜索,尋找全網(wǎng)的資料,那么這些被搜索到的資料/數(shù)據(jù),直接決定著回答的質(zhì)量。

但在中文互聯(lián)網(wǎng),PC網(wǎng)頁(yè)端的內(nèi)容生產(chǎn)早已向移動(dòng)端轉(zhuǎn)移,剩下的大多是營(yíng)銷(xiāo)向的內(nèi)容分發(fā)和AI暴力批量生產(chǎn)的低質(zhì)量?jī)?nèi)容。

不只是中文互聯(lián)網(wǎng),海外互聯(lián)網(wǎng)也一樣,可以說(shuō)AI的學(xué)習(xí)語(yǔ)料已經(jīng)成為一個(gè)世界性難題。當(dāng)投喂給AI 的學(xué)習(xí)語(yǔ)料質(zhì)量越來(lái)越差、乃至越來(lái)越多AI本身制造的“幻覺(jué)”,AI的應(yīng)用推廣將會(huì)面臨極大的挑戰(zhàn)。

為此,未來(lái)企業(yè)和個(gè)人都需要搭建自己的知識(shí)庫(kù)。

360公司老板周鴻祎對(duì)此舉過(guò)一個(gè)例子:

“比如說(shuō)A媒體和B媒體,同樣是做一個(gè)對(duì)中國(guó)網(wǎng)游行業(yè)的一個(gè)調(diào)研報(bào)告,你們倆準(zhǔn)備的知識(shí)庫(kù)不一樣,定向搜索的網(wǎng)站不一樣,最后出來(lái)的結(jié)論一定是不一樣的,所以一定要有專(zhuān)業(yè)知識(shí)庫(kù)?!?/p>

除了知識(shí)庫(kù)本身質(zhì)量有問(wèn)題,可能還缺乏相關(guān)領(lǐng)域的知識(shí)。

有人可能會(huì)問(wèn),AI學(xué)習(xí)了全網(wǎng)各個(gè)行業(yè)的數(shù)據(jù),怎么會(huì)缺乏相關(guān)領(lǐng)域的知識(shí)?事實(shí)就是AI只是學(xué)習(xí)了公開(kāi)的、上了網(wǎng)的各行業(yè)數(shù)據(jù),但真正稀缺的、有價(jià)值的行業(yè)數(shù)據(jù)儲(chǔ)存在各個(gè)企業(yè)的私有化部署系統(tǒng)、專(zhuān)家的個(gè)人知識(shí)庫(kù)。

拿市場(chǎng)調(diào)研行業(yè)舉例,網(wǎng)上鮮有20年以上經(jīng)驗(yàn)的市場(chǎng)研究專(zhuān)家的知識(shí)、經(jīng)驗(yàn)分享,有也只是零星片段,構(gòu)不成系統(tǒng)。

再拿咨詢(xún)行業(yè)舉例,各個(gè)智庫(kù)的解決方案是不可能上網(wǎng)的,你要做一個(gè)品牌定位,AI是可以給你一個(gè)通用框架,但和智庫(kù)的解決方案一比,高下立現(xiàn)。

再就是,很多時(shí)候我們需要解決的是一個(gè)特定垂直場(chǎng)景的問(wèn)題,而AI如果不了解背景上下文,自然也無(wú)法解決我們的問(wèn)題。

舉例來(lái)說(shuō),我是一個(gè)企業(yè)內(nèi)部的用戶(hù)研究人員,做了很多期NPS跟蹤監(jiān)測(cè)的項(xiàng)目,現(xiàn)在我想借助AI來(lái)幫我分析NPS數(shù)據(jù)、寫(xiě)洞察報(bào)告。

如果你只是直接把新一期的數(shù)據(jù)喂給AI,AI給到的結(jié)果大概率不盡如人意,但如果我們把之前的項(xiàng)目資料、數(shù)據(jù)喂給AI學(xué)習(xí),那么產(chǎn)出的質(zhì)量就會(huì)高很多。

該項(xiàng)目相關(guān)的所有資料、數(shù)據(jù),本質(zhì)上就構(gòu)成了一個(gè)該項(xiàng)目的知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)是私人的,本地的,獨(dú)占的。

從另一個(gè)角度,這個(gè)知識(shí)庫(kù)實(shí)際上就是待解決問(wèn)題的上下文,在以前是提示工程的一部分,當(dāng)我們構(gòu)建了特定場(chǎng)景的知識(shí)庫(kù),我們對(duì)提示詞的依賴(lài)就會(huì)進(jìn)一步降低,到最后可能只需要一句話:幫我分析下這個(gè)數(shù)據(jù),然后給出洞察和行動(dòng)建議。

如何搭建專(zhuān)業(yè)知識(shí)庫(kù)

搭建專(zhuān)業(yè)知識(shí)庫(kù)的工具不少,本文介紹比較主流的一款-ima。

ima是騰訊大廠推出的以知識(shí)庫(kù)為核心的智能工作平臺(tái),已接入騰訊混元大模型(包括T1)和DeepSeek R1模型滿(mǎn)血版,是最好用的知識(shí)庫(kù)產(chǎn)品之一。

首先,官網(wǎng)下載ima(官方網(wǎng)址:https://ima.qq.com/)

其次,安裝好后左邊點(diǎn)擊“知識(shí)庫(kù)”工具,導(dǎo)入學(xué)習(xí)資料,構(gòu)建個(gè)人知識(shí)庫(kù)。

我這里上傳了一些市場(chǎng)/人群細(xì)分的報(bào)告資料,構(gòu)建了一個(gè)“人群細(xì)分”研究的知識(shí)庫(kù)。

最好,你可以針對(duì)每個(gè)知識(shí)文件進(jìn)行打標(biāo)簽,后面可以根據(jù)標(biāo)簽來(lái)搜索資料,而且可以輸入#選擇標(biāo)簽,獲取基于指定標(biāo)簽下內(nèi)容的回答。

然后,就可以基于個(gè)人知識(shí)庫(kù)提問(wèn)啦,可以對(duì)比下通用知識(shí)庫(kù)的回答。

我這里提的需求是:我現(xiàn)在要做一個(gè)中國(guó)智能手機(jī)的人群細(xì)分調(diào)研項(xiàng)目,請(qǐng)幫我設(shè)計(jì)一個(gè)研究方案,要求包含背景目標(biāo)、研究方法、樣本設(shè)計(jì)、研究思路和框架、時(shí)間排期等。

(以下為DeepSeekR1通用知識(shí)庫(kù)生成回答)

(以下為ima+DeepSeekR1個(gè)人知識(shí)庫(kù)生成回答)

通過(guò)比較可以發(fā)現(xiàn),ima的回答會(huì)嚴(yán)格基于個(gè)人知識(shí)庫(kù),但凡超出知識(shí)庫(kù)會(huì)拒絕回答,這意味著沒(méi)有AI“幻覺(jué)”:

這樣做的好處是非常適合追求精確、穩(wěn)定輸出的企業(yè)應(yīng)用場(chǎng)景,不好的地方在于對(duì)專(zhuān)業(yè)知識(shí)庫(kù)的質(zhì)量要求很高,同時(shí)因?yàn)閲?yán)格遵循舊有的經(jīng)驗(yàn)(不一定是最佳實(shí)踐),少了自主發(fā)揮。

所以未來(lái)一定是通用知識(shí)庫(kù)和專(zhuān)業(yè)知識(shí)庫(kù)相結(jié)合,專(zhuān)業(yè)知識(shí)庫(kù)為主導(dǎo),起通用知識(shí)庫(kù)為輔,起到創(chuàng)意和發(fā)散的作用。

值得一提的是,ima同時(shí)支持微信小程序。

在微信頂部搜索“ima知識(shí)庫(kù)”,進(jìn)入小程序頁(yè)面,可批量導(dǎo)入微信聊天中的文件(支持PDF、PPT、word等多種格式)、本地圖片(支持PNG、JEPG等格式)、或者拍照導(dǎo)入圖片。

當(dāng)把文件導(dǎo)入后,可以點(diǎn)擊下方對(duì)話框,問(wèn)全網(wǎng)相當(dāng)于查找網(wǎng)絡(luò)資料,問(wèn)知識(shí)庫(kù)相當(dāng)于只在你的個(gè)人知識(shí)庫(kù)和共享知識(shí)庫(kù)中進(jìn)行查找。

這里可以注意到,PC端和移動(dòng)端是云同步的,在PC端上傳的資料,在移動(dòng)端打開(kāi)會(huì)發(fā)現(xiàn)知識(shí)庫(kù)里面已經(jīng)有了,非常方便。

再就是,ima支持知識(shí)庫(kù)共享,支持筆記/文件/網(wǎng)頁(yè)可在瀏覽時(shí)直接加入共享知識(shí)庫(kù),具體就不再展開(kāi)。

如何理解知識(shí)庫(kù)工具的本質(zhì)

Ima這類(lèi)知識(shí)庫(kù)平臺(tái),本質(zhì)上是一種RAG方案。

RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)是一種結(jié)合了信息檢索(Retrieval)和生成模型(Generation)的混合技術(shù),旨在提升生成式模型的準(zhǔn)確性和可靠性。

其核心思想是:在生成答案前,先從外部知識(shí)庫(kù)或文檔中檢索與輸入相關(guān)的信息,再將這些信息作為上下文輸入生成模型(如GPT等),從而生成更符合事實(shí)、更具深度的回答。

RAG 的典型流程:

  1. 檢索:根據(jù)輸入問(wèn)題,從知識(shí)庫(kù)中檢索相關(guān)文檔或段落。
  2. 增強(qiáng):將檢索到的信息與原始輸入拼接,形成增強(qiáng)的上下文。
  3. 生成:生成模型基于增強(qiáng)后的上下文輸出最終回答。

RAG 的關(guān)鍵特點(diǎn):

  • 動(dòng)態(tài)知識(shí)庫(kù):不依賴(lài)模型本身的參數(shù)化知識(shí),而是實(shí)時(shí)從外部數(shù)據(jù)源(如數(shù)據(jù)庫(kù)、文檔集)檢索信息。
  • 減少幻覺(jué)(Hallucination):通過(guò)引入檢索到的真實(shí)數(shù)據(jù),降低生成模型“編造事實(shí)”的風(fēng)險(xiǎn)。
  • 靈活性:知識(shí)庫(kù)可獨(dú)立更新,無(wú)需重新訓(xùn)練生成模型。
  • 應(yīng)用場(chǎng)景:?jiǎn)柎鹣到y(tǒng)、內(nèi)容生成、客服對(duì)話等需結(jié)合實(shí)時(shí)或領(lǐng)域知識(shí)的任務(wù)。

除了ima以外,這里再給大家列舉幾種方案供選擇:

如果你是企業(yè),需要本地化部署的知識(shí)庫(kù),那么推薦CherryStudio這類(lèi)開(kāi)源軟件;如果你是個(gè)人,構(gòu)建云端知識(shí)庫(kù),那么騰訊的ima是個(gè)不錯(cuò)的選擇;如果你想搭建出海/英文知識(shí)庫(kù),那么Google NotebookLM可以試一試。

本文由人人都是產(chǎn)品經(jīng)理作者【Peron用戶(hù)研究】,微信公眾號(hào):【Peron用戶(hù)研究】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!