如何讓DeepSeek生成讓人滿意的回答?試試專業(yè)知識庫
。AI 的回答質(zhì)量高度依賴其調(diào)用的知識庫內(nèi)容,而當(dāng)前互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊,甚至存在大量 AI 自身生成的“幻覺”內(nèi)容,這給 AI 的學(xué)習(xí)和輸出帶來了極大挑戰(zhàn)。為了解決這一問題,搭建專業(yè)知識庫成為關(guān)鍵
當(dāng)我們跟AI交互,AI沒有給出我們預(yù)期的結(jié)果,原因可能是我們沒有把我們的需求說清楚,沒有正確地提出問題,對此可以用提示工程(Prompt Engineering)來解決。這是我們第一篇文章聊的話題。
隨著AI的進化和推理模型的推出,大大降低了對提示工程的依賴,正確提需求如果不再是一個問題,但AI還是沒有給出我們想要的答案,那可能是AI調(diào)用的知識庫(數(shù)據(jù)源)本身有問題,或者說缺乏相關(guān)領(lǐng)域的知識。
為什么要搭建專業(yè)知識庫
不知道你有沒有發(fā)現(xiàn),AI在回答我們的提問前,會先進行搜索,尋找全網(wǎng)的資料,那么這些被搜索到的資料/數(shù)據(jù),直接決定著回答的質(zhì)量。
但在中文互聯(lián)網(wǎng),PC網(wǎng)頁端的內(nèi)容生產(chǎn)早已向移動端轉(zhuǎn)移,剩下的大多是營銷向的內(nèi)容分發(fā)和AI暴力批量生產(chǎn)的低質(zhì)量內(nèi)容。
不只是中文互聯(lián)網(wǎng),海外互聯(lián)網(wǎng)也一樣,可以說AI的學(xué)習(xí)語料已經(jīng)成為一個世界性難題。當(dāng)投喂給AI 的學(xué)習(xí)語料質(zhì)量越來越差、乃至越來越多AI本身制造的“幻覺”,AI的應(yīng)用推廣將會面臨極大的挑戰(zhàn)。
為此,未來企業(yè)和個人都需要搭建自己的知識庫。
360公司老板周鴻祎對此舉過一個例子:
“比如說A媒體和B媒體,同樣是做一個對中國網(wǎng)游行業(yè)的一個調(diào)研報告,你們倆準(zhǔn)備的知識庫不一樣,定向搜索的網(wǎng)站不一樣,最后出來的結(jié)論一定是不一樣的,所以一定要有專業(yè)知識庫?!?/p>
除了知識庫本身質(zhì)量有問題,可能還缺乏相關(guān)領(lǐng)域的知識。
有人可能會問,AI學(xué)習(xí)了全網(wǎng)各個行業(yè)的數(shù)據(jù),怎么會缺乏相關(guān)領(lǐng)域的知識?事實就是AI只是學(xué)習(xí)了公開的、上了網(wǎng)的各行業(yè)數(shù)據(jù),但真正稀缺的、有價值的行業(yè)數(shù)據(jù)儲存在各個企業(yè)的私有化部署系統(tǒng)、專家的個人知識庫。
拿市場調(diào)研行業(yè)舉例,網(wǎng)上鮮有20年以上經(jīng)驗的市場研究專家的知識、經(jīng)驗分享,有也只是零星片段,構(gòu)不成系統(tǒng)。
再拿咨詢行業(yè)舉例,各個智庫的解決方案是不可能上網(wǎng)的,你要做一個品牌定位,AI是可以給你一個通用框架,但和智庫的解決方案一比,高下立現(xiàn)。
再就是,很多時候我們需要解決的是一個特定垂直場景的問題,而AI如果不了解背景上下文,自然也無法解決我們的問題。
舉例來說,我是一個企業(yè)內(nèi)部的用戶研究人員,做了很多期NPS跟蹤監(jiān)測的項目,現(xiàn)在我想借助AI來幫我分析NPS數(shù)據(jù)、寫洞察報告。
如果你只是直接把新一期的數(shù)據(jù)喂給AI,AI給到的結(jié)果大概率不盡如人意,但如果我們把之前的項目資料、數(shù)據(jù)喂給AI學(xué)習(xí),那么產(chǎn)出的質(zhì)量就會高很多。
該項目相關(guān)的所有資料、數(shù)據(jù),本質(zhì)上就構(gòu)成了一個該項目的知識庫,這個知識庫是私人的,本地的,獨占的。
從另一個角度,這個知識庫實際上就是待解決問題的上下文,在以前是提示工程的一部分,當(dāng)我們構(gòu)建了特定場景的知識庫,我們對提示詞的依賴就會進一步降低,到最后可能只需要一句話:幫我分析下這個數(shù)據(jù),然后給出洞察和行動建議。
如何搭建專業(yè)知識庫
搭建專業(yè)知識庫的工具不少,本文介紹比較主流的一款-ima。
ima是騰訊大廠推出的以知識庫為核心的智能工作平臺,已接入騰訊混元大模型(包括T1)和DeepSeek R1模型滿血版,是最好用的知識庫產(chǎn)品之一。
首先,官網(wǎng)下載ima(官方網(wǎng)址:https://ima.qq.com/)
其次,安裝好后左邊點擊“知識庫”工具,導(dǎo)入學(xué)習(xí)資料,構(gòu)建個人知識庫。
我這里上傳了一些市場/人群細(xì)分的報告資料,構(gòu)建了一個“人群細(xì)分”研究的知識庫。
最好,你可以針對每個知識文件進行打標(biāo)簽,后面可以根據(jù)標(biāo)簽來搜索資料,而且可以輸入#選擇標(biāo)簽,獲取基于指定標(biāo)簽下內(nèi)容的回答。
然后,就可以基于個人知識庫提問啦,可以對比下通用知識庫的回答。
我這里提的需求是:我現(xiàn)在要做一個中國智能手機的人群細(xì)分調(diào)研項目,請幫我設(shè)計一個研究方案,要求包含背景目標(biāo)、研究方法、樣本設(shè)計、研究思路和框架、時間排期等。
(以下為DeepSeekR1通用知識庫生成回答)
(以下為ima+DeepSeekR1個人知識庫生成回答)
通過比較可以發(fā)現(xiàn),ima的回答會嚴(yán)格基于個人知識庫,但凡超出知識庫會拒絕回答,這意味著沒有AI“幻覺”:
這樣做的好處是非常適合追求精確、穩(wěn)定輸出的企業(yè)應(yīng)用場景,不好的地方在于對專業(yè)知識庫的質(zhì)量要求很高,同時因為嚴(yán)格遵循舊有的經(jīng)驗(不一定是最佳實踐),少了自主發(fā)揮。
所以未來一定是通用知識庫和專業(yè)知識庫相結(jié)合,專業(yè)知識庫為主導(dǎo),起通用知識庫為輔,起到創(chuàng)意和發(fā)散的作用。
值得一提的是,ima同時支持微信小程序。
在微信頂部搜索“ima知識庫”,進入小程序頁面,可批量導(dǎo)入微信聊天中的文件(支持PDF、PPT、word等多種格式)、本地圖片(支持PNG、JEPG等格式)、或者拍照導(dǎo)入圖片。
當(dāng)把文件導(dǎo)入后,可以點擊下方對話框,問全網(wǎng)相當(dāng)于查找網(wǎng)絡(luò)資料,問知識庫相當(dāng)于只在你的個人知識庫和共享知識庫中進行查找。
這里可以注意到,PC端和移動端是云同步的,在PC端上傳的資料,在移動端打開會發(fā)現(xiàn)知識庫里面已經(jīng)有了,非常方便。
再就是,ima支持知識庫共享,支持筆記/文件/網(wǎng)頁可在瀏覽時直接加入共享知識庫,具體就不再展開。
如何理解知識庫工具的本質(zhì)
Ima這類知識庫平臺,本質(zhì)上是一種RAG方案。
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種結(jié)合了信息檢索(Retrieval)和生成模型(Generation)的混合技術(shù),旨在提升生成式模型的準(zhǔn)確性和可靠性。
其核心思想是:在生成答案前,先從外部知識庫或文檔中檢索與輸入相關(guān)的信息,再將這些信息作為上下文輸入生成模型(如GPT等),從而生成更符合事實、更具深度的回答。
RAG 的典型流程:
- 檢索:根據(jù)輸入問題,從知識庫中檢索相關(guān)文檔或段落。
- 增強:將檢索到的信息與原始輸入拼接,形成增強的上下文。
- 生成:生成模型基于增強后的上下文輸出最終回答。
RAG 的關(guān)鍵特點:
- 動態(tài)知識庫:不依賴模型本身的參數(shù)化知識,而是實時從外部數(shù)據(jù)源(如數(shù)據(jù)庫、文檔集)檢索信息。
- 減少幻覺(Hallucination):通過引入檢索到的真實數(shù)據(jù),降低生成模型“編造事實”的風(fēng)險。
- 靈活性:知識庫可獨立更新,無需重新訓(xùn)練生成模型。
- 應(yīng)用場景:問答系統(tǒng)、內(nèi)容生成、客服對話等需結(jié)合實時或領(lǐng)域知識的任務(wù)。
除了ima以外,這里再給大家列舉幾種方案供選擇:
如果你是企業(yè),需要本地化部署的知識庫,那么推薦CherryStudio這類開源軟件;如果你是個人,構(gòu)建云端知識庫,那么騰訊的ima是個不錯的選擇;如果你想搭建出海/英文知識庫,那么Google NotebookLM可以試一試。
本文由人人都是產(chǎn)品經(jīng)理作者【Peron用戶研究】,微信公眾號:【Peron用戶研究】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!