建造知識庫:邁出搭建TO B大模型的第一步
人工智能浪潮中,知識庫已然不僅是數(shù)據(jù)的簡單集合,它已成為企業(yè)智能化轉型的核心競爭力。?
一個大模型的知識庫怎么建?
“從去年下半年開始,我們就開始搭建自己的大模型,基于LLAMA的架構?!?/strong>一位國內制造業(yè)企業(yè)的CIO告訴產業(yè)家,“第一步就是搭建知識庫。”
這家誕生于20世紀80年代的制造業(yè)企業(yè),擁有近40年的精密制造經驗。在過去的幾十年里,該企業(yè)跨過信息化、互聯(lián)網化,來到數(shù)字化、智能化時代。
為了更好地提升工作效率、支持技術發(fā)展、推動企業(yè)文化和組織結構的變革,在去年下半年,公司啟動了基于“開源算法的AI系統(tǒng)”的新項目。
項目被迅速推進。
首先,幾個知識庫的方向被迅速敲定,其中包括生產環(huán)節(jié),辦公環(huán)節(jié)以及協(xié)作環(huán)節(jié)。其次,由公司組織,通過部門會議和討論,收集員工在日常工作中經常遇到的高頻問題;
此外,選擇一些對新知識敏感、愿意接受新技術的員工,組成學習小組,進行初步的AI和知識庫使用培訓,并要求學習小組成員提出一定數(shù)量的問題,對這些問題進行分類;將收集到的問題和答案用于訓練AI模型,以提高其回答問題的準確性。最終,將其部署在自己的服務器上。
這恰是一個完整的知識庫搭建流程。
從更大的視角來看,在To B企業(yè)服務市場的浪潮中,如今大模型的落地應用正成為企業(yè)航船的強勁引擎。而知識庫,作為這引擎的燃料,也正受到前所未有的關注。它不僅是輔助工具如Copilot和智能代理Agent的堅實后盾,更是全場景企業(yè)級大模型部署的核心力量。
在過去的一年時間里,不同的服務商,包括基座大模型廠商、軟件服務商、云服務商、行業(yè)解決方案提供商以及第三方大模型開發(fā)平臺,都在幫助企業(yè)構建知識庫方面發(fā)揮著各自的作用。
比如,基座大模型廠商的做法是通過提供一站式企業(yè)級大模型平臺,使得企業(yè)能夠享受到從數(shù)據(jù)處理到模型訓練、部署和運維的全流程服務;軟件服務商的模式則是更傾向于提供垂直的解決方案,他們結合特定行業(yè)知識,幫助企業(yè)構建符合行業(yè)特性的知識庫。
那么在當下的大模型時代,知識庫到底發(fā)揮什么作用,它和大模型的關系到底是怎樣的?以及知識庫在大模型訓練過程中到底發(fā)揮怎樣的作用?
一、大模型時代,重新理解知識庫
首先,一個精準的定義是,TO B企業(yè)的知識庫,更可以看作是一個專業(yè)性極強的信息資源庫,它與個人知識庫相比,具有明顯的系統(tǒng)性、規(guī)模性和保密性特點。
從構成內容來看,企業(yè)知識庫通常包含大量專業(yè)性強、與企業(yè)運營緊密相關的數(shù)據(jù),這些數(shù)據(jù)不僅包括文本信息,還可能涵蓋圖片、視頻、音頻和數(shù)據(jù)表格等多模態(tài)格式。這樣的設計使得企業(yè)知識庫能夠支持企業(yè)的決策制定、流程優(yōu)化和客戶服務等多個方面。
其特殊性在于,企業(yè)知識庫中的數(shù)據(jù)具有特定的業(yè)務含義,如客戶信息、交易記錄和庫存狀態(tài)等,這些對于企業(yè)的日常運營和長期戰(zhàn)略規(guī)劃都至關重要。
此外,企業(yè)知識庫的數(shù)據(jù)還與內部流程和規(guī)則緊密相連,如生產流程和財務規(guī)則等,這要求企業(yè)知識庫必須具備高度的集成性,以便與企業(yè)的其他系統(tǒng)如ERP和CRM等實現(xiàn)無縫集成。
這些從語料到連接到流程的特殊性,對應的也更是在大模型的落地過程中,企業(yè)知識庫扮演著至關重要的角色。
具體來看,首先在訓練初始環(huán)節(jié),知識庫的角色是為大模型提供豐富的訓練數(shù)據(jù),確保模型能夠精準匹配企業(yè)的具體業(yè)務需求和場景。通過持續(xù)的反饋循環(huán),知識庫幫助模型不斷自我優(yōu)化,提升性能。
以市面上如今流行的RAG技術為例,大模型能夠檢索知識庫中的相關信息,生成準確的回答或解決方案,并將這些輸出反饋回知識庫中,形成一個持續(xù)學習和改進的閉環(huán),從而顯著提升解決問題的效率和準確性。
例如Google的DeepMind Health項目通過整合多模態(tài)數(shù)據(jù),提高了疾病診斷的準確性,在識別視網膜病變方面提高了診斷準確率;Salesforce的數(shù)據(jù)顯示,通過知識庫微調的AI模型在銷售預測方面的準確率提高了約30%。
甚至可以說,企業(yè)知識庫的建設和應用直接影響大模型在企業(yè)內部的使用效果。它不僅提高了模型的效率和準確性,還增強了用戶對模型輸出的信任和滿意度。同時,企業(yè)還可以通過知識庫來控制數(shù)據(jù)的訪問和使用,確保數(shù)據(jù)安全和合規(guī)性。
根據(jù)IBM的年度報告,其知識庫幫助減少了約20%的內部查詢響應時間,同時提高了數(shù)據(jù)安全性;根據(jù)亞馬遜的業(yè)務報告,通過知識庫的應用,庫存周轉率提高了約15%,客戶滿意度提升了10%。
最后,更可以看做,隨著企業(yè)對數(shù)字化轉型的需求日益增長,企業(yè)知識庫與大模型的結合也更將成為企業(yè)獲取競爭優(yōu)勢的重要工具。
在德勤的一項分析中,那些有效利用知識庫的企業(yè),其年增長率平均比行業(yè)平均水平高出15%。
可以說,知識庫的最核心價值呈現(xiàn)恰是其在為模型提供了微調數(shù)據(jù)之外,還確保模型能夠真正適應企業(yè)的特定需求,提高其在企業(yè)內部的有效性。
二、誰在構建知識庫?
盡管市場上眾多企業(yè)提供了基于大型模型的知識庫服務,但構建這樣的系統(tǒng)并非輕而易舉的任務。
例如,根據(jù)《企業(yè)知識管理調查報告》顯示,超過60%的企業(yè)在嘗試集成AI助手時遇到了技術障礙。
正如文章開頭所述的案例,企業(yè)在搭建知識庫的過程中,需要將AI助手與現(xiàn)有的多種軟件和系統(tǒng)進行集成。這要求企業(yè)擁有大量且細致的數(shù)據(jù)集來訓練AI模型,這在企業(yè)初期是一個巨大的挑戰(zhàn)——確保AI助手提供的答案準確無誤,尤其是在制造業(yè)這樣對錯誤容忍度極低的行業(yè)中。福特汽車公司在集成AI系統(tǒng)時,就曾面臨數(shù)據(jù)精確度不足的問題,導致初期模型的準確率僅為70%。
在數(shù)據(jù)層面,企業(yè)需要選擇不同的數(shù)據(jù)處理工具,如Apache Spark、Hadoop,標注軟件如LabelImg,內容管理系統(tǒng)(CMS)如WordPress、Drupal,以及企業(yè)搜索解決方案如Elasticsearch、Apache Solr,都是構建知識庫的利器。
據(jù)Gartner的報告指出,市場上排名前五的數(shù)據(jù)處理工具在數(shù)據(jù)清洗效率上的差異可達到30%以上。
此外,知識庫的用戶界面設計對員工的使用體驗和效率有著直接影響;同時,工具與企業(yè)現(xiàn)有系統(tǒng)和工作流程的集成性也是至關重要的。IBM的Watson平臺在與企業(yè)系統(tǒng)集成時,就提供了超過200種預集成選項,顯著提高了集成效率。
面對這些挑戰(zhàn),一些基礎模型供應商和軟件服務提供商正在幫助企業(yè)構建知識庫。比如百度的“昆侖芯+飛槳平臺+文心大模型”布局,以及華為的“昇騰芯片+MindSpore框架+盤古大模型”等,都是從更系統(tǒng)的層面保障企業(yè)大模型部署的成功。
此外,像滴普科技這樣的軟件廠商,也不斷提供垂直的解決方案,其客戶滿意度調查顯示,使用滴普科技基于數(shù)據(jù)庫等數(shù)據(jù)細顆粒度的解決方案的企業(yè),其知識庫構建成功率可以提高40%。
然而,工具本身并非萬能。企業(yè)要成功搭建自己的知識庫,還需要克服內部組織結構、業(yè)務流程和員工接受度等難點。高層的支持和明確的戰(zhàn)略規(guī)劃對于項目的成功至關重要。根據(jù)麥肯錫的一項研究,有高層支持的企業(yè)知識庫項目成功率比沒有支持的高出50%。
在搭建知識庫的過程中,IT部門或知識管理部門通常是牽頭者,負責架構設計和技術選型。而業(yè)務部門則需要提供內容支持,確保知識庫的信息準確、及時。
例如,產品開發(fā)部門提供最新的產品信息,客戶服務部門貢獻常見問題解答,人力資源部門提供員工培訓材料。這就像一場交響樂,每個部門都是不可或缺的樂手,共同奏出和諧的樂章。一項針對500家企業(yè)的調查發(fā)現(xiàn),那些擁有健全知識庫的企業(yè),其產品開發(fā)周期平均縮短了20%。
此外,企業(yè)還應該培養(yǎng)員工的知識共享文化,鼓勵他們將經驗和教訓貢獻給知識庫,形成持續(xù)的知識積累和更新。根據(jù)哈佛商業(yè)評論的研究,擁有強大知識共享文化的公司,其創(chuàng)新速度比行業(yè)平均水平快30%。
總之,企業(yè)知識庫的建設是一項系統(tǒng)化的工程,它要求企業(yè)從戰(zhàn)略層面進行規(guī)劃,技術層面進行實施,文化層面進行推動。只有當知識庫真正是以企業(yè)知識寶庫的形式存在,才能真正從大模型的價值層面進行賦能加持。
三、知識庫背后:大模型的落地成色
再回到文章最開始那個問題:知識庫于大模型而言,意味著什么?
首先,從表層來看,知識庫為模型提供了訓練所需的海量數(shù)據(jù)和信息資源。谷歌的BERT模型之所以在語言理解任務上取得顯著進展,是因為它訓練時使用了包含超過3000本未版權書籍和2400萬網頁的龐大知識庫。這樣的數(shù)據(jù)豐富性確保了模型能夠學習到廣泛的語言模式和知識。
知識庫中的信息多樣性也是大模型落地的關鍵。IBM的Watson在醫(yī)療領域應用時,依賴于包含超過200萬頁醫(yī)學文獻、圖像和病例報告的多模態(tài)知識庫,這使得Watson能夠處理復雜的醫(yī)療咨詢和診斷任務。
此外,從模型的特定性來看,知識庫中的信息準確性對于大模型的決策支持至關重要。例如,金融機構在使用大模型進行風險評估時,依賴于準確無誤的金融數(shù)據(jù)知識庫,這些數(shù)據(jù)往往來源于經過嚴格審核的金融報告和市場分析。
知識庫,正在成為大模型落地的基礎。
目前做得好的知識庫不僅僅是靜態(tài)的信息集合,而是動態(tài)、互動的平臺。它不僅僅是信息的存儲和分類,更是知識發(fā)現(xiàn)和創(chuàng)新的催化劑。當前做得好的知識庫,已經超越了傳統(tǒng)的文檔管理和搜索功能,它們通過集成先進的搜索算法、自然語言處理技術,甚至將機器學習模型(如prompt)嵌入其中,實現(xiàn)了知識的自動更新和智能化推薦。
例如,亞馬遜的A3知識庫存儲了超過5億個產品信息,并通過機器學習算法不斷優(yōu)化產品推薦,提高了用戶體驗和銷售效率。這些知識庫通常具備高度集成、用戶友好、智能化、個性化和持續(xù)學習的特點。
未來,知識庫的搭建方式將更加智能化和自動化。例如,自動內容聚合工具如Import.io能夠從互聯(lián)網上自動收集和整理信息,而機器學習平臺如Google’s TensorFlow則能夠處理和分析這些數(shù)據(jù)。知識庫的作用將不僅限于提供數(shù)據(jù)支持,它將成為企業(yè)決策的智能助手,通過分析大量數(shù)據(jù)提供洞察和建議。
在大模型落地中,知識庫的更新和進化模式將變得更加動態(tài)。例如,OpenAI的模型能夠根據(jù)用戶的反饋和行為自動調整其生成的文本,以適應不斷變化的需求和環(huán)境。這種自我優(yōu)化的能力將使知識庫成為大模型持續(xù)進化的重要驅動力。
隨著技術的進步,知識庫將變得更加智能、互動和自適應,為企業(yè)提供更加強大和靈活的知識管理能力。據(jù)Gartner預測,到2025年,超過30%的大型企業(yè)將擁有自己定制的人工智能知識庫,這將極大地推動企業(yè)智能化的發(fā)展。
在人工智能的浪潮中,知識庫已然不僅是數(shù)據(jù)的簡單集合,它已成為企業(yè)智能化轉型的核心競爭力。
作者:斗斗,編輯:皮爺
來源公眾號:產業(yè)家(ID:chanyejiawang),專注深度產業(yè)互聯(lián)網內容
本文由人人都是產品經理合作媒體 @產業(yè)家 授權發(fā)布,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!