AI大模型技術(shù)解析-大模型背后的秘密
隨著AI技術(shù)的飛速發(fā)展,大模型如ChatGPT等已成為人工智能領(lǐng)域的熱門(mén)話題。然而,這些看似“靈性”的創(chuàng)造行為背后,實(shí)則隱藏著精密的機(jī)械邏輯和技術(shù)架構(gòu)。本文將深入解析AI大模型背后的秘密,從Chat的含義、LLM(大型語(yǔ)言模型)的定義、Token的計(jì)算方式、蒸餾模型的作用,供大家參考學(xué)習(xí)。
當(dāng)AI開(kāi)口說(shuō)話時(shí),機(jī)器在思考什么?
凌晨三點(diǎn)的服務(wù)器機(jī)房,數(shù)以萬(wàn)計(jì)的顯卡矩陣在黑暗中閃爍著幽藍(lán)微光,神經(jīng)網(wǎng)絡(luò)中奔涌著每秒數(shù)萬(wàn)億次的矩陣運(yùn)算。當(dāng)ChatGPT為你寫(xiě)出一首精巧的俳句,當(dāng)Comfy UI的工作流生成令人驚嘆的數(shù)字藝術(shù),這些看似充滿”靈性”的創(chuàng)造行為背后,實(shí)則運(yùn)行著一套精密如鐘表般的機(jī)械邏輯。
當(dāng)你仔細(xì)研究一下會(huì)發(fā)現(xiàn),大模型并不是常人所想象的那么簡(jiǎn)單。
例如我們?cè)谟谩窪eepseek」充值A(chǔ)PI的時(shí)候會(huì)發(fā)現(xiàn)明確標(biāo)注著“每百萬(wàn)token輸入xx元“又或者說(shuō)本地部署時(shí)候總能提到的「滿血版」「32B」等。這些到底是什么東西呢?
接下來(lái)就讓我這個(gè)自詡站在大模型前沿的作者帶你揭開(kāi)大模型的神秘面紗,帶你揭秘大模型背后的秘密。
Chat的含義
從23開(kāi)始由于AI的井噴式爆發(fā),導(dǎo)致市面上出現(xiàn)了數(shù)不過(guò)來(lái)的大模型,單說(shuō)國(guó)內(nèi)的大模型已經(jīng)達(dá)到了百家以上,但細(xì)心的小伙伴會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題,就是大模型的網(wǎng)址域名里面會(huì)出現(xiàn)一個(gè)單詞「Chat」
而Chat在大模型中的真實(shí)含義指的是模型具備的對(duì)話能力,即能夠像人類一樣進(jìn)行自然流暢的交流
1)Chat=對(duì)話在大模型中,“Chat” 表示模型具備與用戶進(jìn)行多輪對(duì)話交互的能力。
這種對(duì)話不僅僅是簡(jiǎn)單的問(wèn)答,而是能夠理解上下文、記住對(duì)話歷史,并做出自然、連貫的回應(yīng)。
2)Chat 也代表模型的應(yīng)用場(chǎng)景
比如 ChatGPT,“Chat” 就是強(qiáng)調(diào)它的主要功能是聊天和對(duì)話,而 GPT 是 “Generative Pre-trained Transformer”(生成式預(yù)訓(xùn)練變換模型)。
例:ChatGPT是一個(gè)對(duì)話機(jī)器人,真正的技術(shù)是大模型也就是GPT,技術(shù)不可以對(duì)話,Chat可以對(duì)話,Chat和GPT是兩個(gè)東西。
總結(jié)來(lái)說(shuō)就是,在AI大模型中,Chat代表了模型的“對(duì)話交互能力”,讓模型不僅能“生成文字”,還能與用戶連貫且智能地交流,提升互動(dòng)體驗(yàn)。
LLM又是什么?
LLM 是 Large Language Model 的縮寫(xiě),意思是大型語(yǔ)言模型 。在平時(shí)生活中習(xí)慣性叫縮寫(xiě),「LLM」
1)核心特點(diǎn)
- 超大規(guī)模:擁有數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù)。
- 訓(xùn)練數(shù)據(jù)龐大:通?;诨ヂ?lián)網(wǎng)上的海量文本數(shù)據(jù)訓(xùn)練,如書(shū)籍、文章、網(wǎng)頁(yè)等。
- 多功能性:可以完成文本生成、翻譯、總結(jié)、問(wèn)答、對(duì)話、編程等多種任務(wù)。
- 自監(jiān)督學(xué)習(xí):通過(guò)“預(yù)測(cè)下一個(gè)詞”這種簡(jiǎn)單的方式自我學(xué)習(xí),逐漸掌握語(yǔ)言規(guī)律。
2)如何工作
- 輸入:用戶輸入一段文字,稱為“Prompt”。
- Token 處理:LLM 將文本拆分為 Token。
- 預(yù)測(cè):模型根據(jù)已有 Token,預(yù)測(cè)下一個(gè)最合理的 Token。
- 輸出:逐步生成完整的文本內(nèi)容。
以上的步驟也就是正常去問(wèn)大模型問(wèn)題,他回答你問(wèn)題的步驟,也是大模型工作的流程。
3)代表模型
什么叫做Token
在提到token的時(shí)候,很多人會(huì)不陌生,比如在使用用「Deepseek」充值A(chǔ)PI的時(shí)候會(huì)發(fā)現(xiàn)明確標(biāo)注著“每百萬(wàn)token輸入xx元,每百萬(wàn)輸出tokenxxx元”。那這個(gè)token到底是什么東西呢,使用大模型所花的錢(qián)為什么要按照token計(jì)算呢。
下表為「Deepseek」的token計(jì)費(fèi)方式。
1)Token的含義
在大模型中,Token(標(biāo)記) 是模型處理文本時(shí)的最小單位。大模型在訓(xùn)練和推理時(shí),不是直接處理整段文字,而是將文本拆分成一系列的 Token,再進(jìn)行分析和生成。
Token 是什么?
Token ≠ 字符,Token 可以是一個(gè)字、一個(gè)詞,甚至是詞的一部分。
Token 的拆分方式依賴于模型所使用的分詞算法,常見(jiàn)的有以下兩種
- 字節(jié)對(duì)編碼(BPE):常用于英文,將詞按子詞拆分。
- SentencePiece:支持多語(yǔ)言,更智能地進(jìn)行拆分。
2)token的計(jì)算方式標(biāo)準(zhǔn)是什么?
token其實(shí)沒(méi)有固定的字?jǐn)?shù)限制,2個(gè)字可能是一個(gè)token、3個(gè)字可能是一個(gè)token、4個(gè)字也可能是一個(gè)token。
并且英文的token計(jì)算方式和中文的計(jì)算方式還不一樣。
例:
英文句子
句子:ChatGPT is amazing!
Token 拆分(按 BPE 算法可能是):[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]
英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’,is 和 amazing 也分別作為獨(dú)立的 Token。
中文句子
句子:大模型很厲害。
Token 拆分(中文一般按字拆分):[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]
中文中,模型 和 厲害 可能會(huì)被作為整體 Token,也可能被拆開(kāi),取決于模型的訓(xùn)練數(shù)據(jù)。
如果想知道一段文本的 Token 數(shù),可以用 OpenAI 提供的 Tokenizer 工具 進(jìn)行測(cè)試。網(wǎng)址:https://platform.openai.com/tokenizer
經(jīng)過(guò)本人的調(diào)研以及詢問(wèn)身邊做AI的小伙伴來(lái)看一個(gè)普通人正常問(wèn)一個(gè)問(wèn)題大概在10-30個(gè)字之間。一個(gè)漢字算下來(lái)約等于0.6token,具體看漢字的復(fù)雜程度,最高是一個(gè)漢字一個(gè)token。上下聊天記錄也算token,輸出也算token
為什么 Token 重要?
- 計(jì)費(fèi):像 ChatGPT 這類模型,通常按 Token 數(shù)量計(jì)費(fèi)。
- 模型限制:每個(gè)模型都有最大 Token 長(zhǎng)度限制,比如 GPT-4 的上下文長(zhǎng)度是 128k Token。
- 輸出預(yù)測(cè):模型的每次生成,是基于已有 Token 預(yù)測(cè)下一個(gè) Token。
大模型依靠什么計(jì)算token呢
上邊提到大模型會(huì)把問(wèn)題的字?jǐn)?shù)分為不同token,那他是依靠什么來(lái)把字?jǐn)?shù)分為不同token呢?
分詞器
提到token就不得不提到一個(gè)東西那就是「分詞器」
分詞器(Tokenizer):是將自然語(yǔ)言文本拆分為 Token 并將其映射為模型可理解的數(shù)字 ID的工具。
分詞器和token關(guān)系
- 分詞器負(fù)責(zé)生成 Token,并將其轉(zhuǎn)化為數(shù)值,供模型使用。
- 模型訓(xùn)練和推理時(shí),輸入和輸出的基本單位都是 Token。
總結(jié):分詞器 = 把文本變成 Token 的工具,Token 是模型理解和處理的基本單元。分詞器的效率和準(zhǔn)確性,直接影響模型的性能和效果。
工作流程圖
流程整體對(duì)比
蒸餾模型是什么?
蒸餾模型(Knowledge Distillation Model) 是一種模型壓縮技術(shù),通過(guò)將大型模型(教師模型,Teacher Model)的知識(shí)“轉(zhuǎn)移”到一個(gè)更小、更輕量的模型(學(xué)生模型,Student Model),從而提升小模型的性能,同時(shí)減少其計(jì)算資源消耗。
通俗點(diǎn)解釋就是在原有大模型基礎(chǔ)上提取出來(lái)的小模型。Distill蒸餾意思,蒸餾出來(lái)的更小、清量、便捷。
為什么需要蒸餾模型?
- 大型模型(Teacher Model):雖然準(zhǔn)確率高,但體積龐大、推理慢、部署成本高。
- 小型模型(Student Model):雖然輕量,但準(zhǔn)確率可能不高。
- 模型蒸餾:將大型模型中的“知識(shí)”提取出來(lái),教給小模型,使其在更小體積下,接近大型模型的性能。
例子 :本地部署Deepseek-R1-(滿血)671B → Deepseek-R1-Distil-70B
類似于Lora模型一般是在一個(gè)底模下煉制出來(lái),可能是58億或者是120億參數(shù)的大模型,一般在中小企業(yè)用不到,所以只需要在大模型基礎(chǔ)上煉制一個(gè)小模型。一般用在垂直領(lǐng)域、醫(yī)療、出海等
參數(shù)是什么?
在大模型(如大型語(yǔ)言模型,LLM)中,參數(shù)(Parameters)是模型中可學(xué)習(xí)的權(quán)重值,用于定義模型如何處理和理解輸入數(shù)據(jù)。
主要作用
- 權(quán)重和偏置:每個(gè)神經(jīng)網(wǎng)絡(luò)層中的神經(jīng)元都有對(duì)應(yīng)的權(quán)重(Weight)和偏置(Bias)。這些參數(shù)在訓(xùn)練過(guò)程中不斷被調(diào)整,以最小化模型預(yù)測(cè)與實(shí)際結(jié)果之間的誤差。
- 學(xué)習(xí)知識(shí):模型通過(guò)大量的數(shù)據(jù)訓(xùn)練,將數(shù)據(jù)中的模式和規(guī)律“記憶”到這些參數(shù)中。參數(shù)越多,模型捕捉數(shù)據(jù)細(xì)節(jié)的能力通常越強(qiáng)。
- 規(guī)模越大,能力越強(qiáng):一般來(lái)說(shuō),參數(shù)越多,模型的表達(dá)能力越強(qiáng),能夠處理更復(fù)雜的語(yǔ)言和任務(wù)。
- 計(jì)算資源和成本:參數(shù)多意味著模型體積更大,訓(xùn)練和推理需要更多的計(jì)算資源和時(shí)間。
大模型的參數(shù)是其核心學(xué)習(xí)元素,決定了模型的能力邊界、性能表現(xiàn)和計(jì)算成本。更大的參數(shù)量通常意味著更強(qiáng)的模型能力,但也需要更高的硬件資源和優(yōu)化策略。
舉例
思維鏈?zhǔn)鞘裁?,為什么那么難?
思維鏈(Chain of Thought,簡(jiǎn)稱 CoT) 是一種提升大模型推理能力的技術(shù),指引模型在回答復(fù)雜問(wèn)題時(shí),逐步展示中間推理步驟,而不僅僅給出最終答案。
重要性
在傳統(tǒng)的模型推理中,模型通常直接給出答案,但面對(duì)邏輯推理、數(shù)學(xué)計(jì)算、復(fù)雜問(wèn)答等問(wèn)題時(shí),單步回答容易出錯(cuò)。
思維鏈通過(guò)引導(dǎo)模型分步驟思考,可以:
- 提升準(zhǔn)確率:逐步推理避免漏掉關(guān)鍵步驟,結(jié)果更準(zhǔn)確。
- 增強(qiáng)可解釋性:模型的推理過(guò)程透明,便于驗(yàn)證和優(yōu)化。
- 降低計(jì)算成本:通過(guò)簡(jiǎn)化推理過(guò)程,減少錯(cuò)誤和重復(fù)計(jì)算。
例子 :
問(wèn)題:小明有 3 個(gè)蘋(píng)果,他又買(mǎi)了 5 個(gè)蘋(píng)果,然后吃掉了 2 個(gè)。請(qǐng)問(wèn)他現(xiàn)在有多少個(gè)蘋(píng)果?
普通回答:6 個(gè)。
思維鏈回答:
- 小明最初有 3 個(gè)蘋(píng)果。
- 他又買(mǎi)了 5 個(gè)蘋(píng)果,所以他現(xiàn)在有 3 + 5 = 8 個(gè)蘋(píng)果。
- 他吃掉了 2 個(gè)蘋(píng)果,所以剩下 8 – 2 = 6 個(gè)蘋(píng)果。
答案:6 個(gè)。
目前市面上支持思維鏈的模型有哪些
原生支持:如 GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通義千問(wèn),無(wú)需特別優(yōu)化即可高效進(jìn)行思維鏈推理。
部分支持:如 Llama 2、Mistral,需要通過(guò)提示優(yōu)化或額外訓(xùn)練才能實(shí)現(xiàn)高效的思維鏈推理。
這里需要說(shuō)一下,好多大模型是在DeepSeek開(kāi)源后逐漸出的思維鏈。
結(jié)尾
以上就是作者本人所了解到的大模型的知識(shí),在這個(gè)AI時(shí)代,應(yīng)該多了解一些AI的知識(shí)。
下期再見(jiàn)????
本文由 @A ad鈣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!