久久99国产精品久久99，亚洲色欲色欲综合网图片，国产精品一区二区蜜臀AV，国产免费99精品偷自拍18禁，日韩动漫无码二区，最新国产免费Av网址，中文字幕不卡二区，久久国产亚洲精品免费观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI大模型技術(shù)解析-大模型背后的秘密

A ad鈣

2025-03-14

0 評(píng)論 1301 瀏覽 2 收藏

15 分鐘

隨著AI技術(shù)的飛速發(fā)展，大模型如ChatGPT等已成為人工智能領(lǐng)域的熱門(mén)話題。然而，這些看似“靈性”的創(chuàng)造行為背后，實(shí)則隱藏著精密的機(jī)械邏輯和技術(shù)架構(gòu)。本文將深入解析AI大模型背后的秘密，從Chat的含義、LLM（大型語(yǔ)言模型）的定義、Token的計(jì)算方式、蒸餾模型的作用，供大家參考學(xué)習(xí)。

當(dāng)AI開(kāi)口說(shuō)話時(shí)，機(jī)器在思考什么？

凌晨三點(diǎn)的服務(wù)器機(jī)房，數(shù)以萬(wàn)計(jì)的顯卡矩陣在黑暗中閃爍著幽藍(lán)微光，神經(jīng)網(wǎng)絡(luò)中奔涌著每秒數(shù)萬(wàn)億次的矩陣運(yùn)算。當(dāng)ChatGPT為你寫(xiě)出一首精巧的俳句，當(dāng)Comfy UI的工作流生成令人驚嘆的數(shù)字藝術(shù)，這些看似充滿”靈性”的創(chuàng)造行為背后，實(shí)則運(yùn)行著一套精密如鐘表般的機(jī)械邏輯。

當(dāng)你仔細(xì)研究一下會(huì)發(fā)現(xiàn)，大模型并不是常人所想象的那么簡(jiǎn)單。

例如我們?cè)谟谩窪eepseek」充值A(chǔ)PI的時(shí)候會(huì)發(fā)現(xiàn)明確標(biāo)注著“每百萬(wàn)token輸入xx元“又或者說(shuō)本地部署時(shí)候總能提到的「滿血版」「32B」等。這些到底是什么東西呢？

接下來(lái)就讓我這個(gè)自詡站在大模型前沿的作者帶你揭開(kāi)大模型的神秘面紗，帶你揭秘大模型背后的秘密。

Chat的含義

從23開(kāi)始由于AI的井噴式爆發(fā)，導(dǎo)致市面上出現(xiàn)了數(shù)不過(guò)來(lái)的大模型，單說(shuō)國(guó)內(nèi)的大模型已經(jīng)達(dá)到了百家以上，但細(xì)心的小伙伴會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題，就是大模型的網(wǎng)址域名里面會(huì)出現(xiàn)一個(gè)單詞「Chat」

而Chat在大模型中的真實(shí)含義指的是模型具備的對(duì)話能力，即能夠像人類一樣進(jìn)行自然流暢的交流

1）Chat=對(duì)話在大模型中，“Chat” 表示模型具備與用戶進(jìn)行多輪對(duì)話交互的能力。

這種對(duì)話不僅僅是簡(jiǎn)單的問(wèn)答，而是能夠理解上下文、記住對(duì)話歷史，并做出自然、連貫的回應(yīng)。

2）Chat 也代表模型的應(yīng)用場(chǎng)景

比如 ChatGPT，“Chat” 就是強(qiáng)調(diào)它的主要功能是聊天和對(duì)話，而 GPT 是 “Generative Pre-trained Transformer”（生成式預(yù)訓(xùn)練變換模型）。

例：ChatGPT是一個(gè)對(duì)話機(jī)器人，真正的技術(shù)是大模型也就是GPT，技術(shù)不可以對(duì)話，Chat可以對(duì)話，Chat和GPT是兩個(gè)東西。

總結(jié)來(lái)說(shuō)就是，在AI大模型中，Chat代表了模型的“對(duì)話交互能力”，讓模型不僅能“生成文字”，還能與用戶連貫且智能地交流，提升互動(dòng)體驗(yàn)。

LLM又是什么？

LLM 是 Large Language Model 的縮寫(xiě)，意思是大型語(yǔ)言模型 。在平時(shí)生活中習(xí)慣性叫縮寫(xiě)，「LLM」

1）核心特點(diǎn)

超大規(guī)模：擁有數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù)。
訓(xùn)練數(shù)據(jù)龐大：通?；诨ヂ?lián)網(wǎng)上的海量文本數(shù)據(jù)訓(xùn)練，如書(shū)籍、文章、網(wǎng)頁(yè)等。
多功能性：可以完成文本生成、翻譯、總結(jié)、問(wèn)答、對(duì)話、編程等多種任務(wù)。
自監(jiān)督學(xué)習(xí)：通過(guò)“預(yù)測(cè)下一個(gè)詞”這種簡(jiǎn)單的方式自我學(xué)習(xí)，逐漸掌握語(yǔ)言規(guī)律。

2）如何工作

輸入：用戶輸入一段文字，稱為“Prompt”。
Token 處理：LLM 將文本拆分為 Token。
預(yù)測(cè)：模型根據(jù)已有 Token，預(yù)測(cè)下一個(gè)最合理的 Token。
輸出：逐步生成完整的文本內(nèi)容。

以上的步驟也就是正常去問(wèn)大模型問(wèn)題，他回答你問(wèn)題的步驟，也是大模型工作的流程。

3）代表模型

什么叫做Token

在提到token的時(shí)候，很多人會(huì)不陌生，比如在使用用「Deepseek」充值A(chǔ)PI的時(shí)候會(huì)發(fā)現(xiàn)明確標(biāo)注著“每百萬(wàn)token輸入xx元，每百萬(wàn)輸出tokenxxx元”。那這個(gè)token到底是什么東西呢，使用大模型所花的錢(qián)為什么要按照token計(jì)算呢。

下表為「Deepseek」的token計(jì)費(fèi)方式。

1）Token的含義

在大模型中，Token（標(biāo)記） 是模型處理文本時(shí)的最小單位。大模型在訓(xùn)練和推理時(shí)，不是直接處理整段文字，而是將文本拆分成一系列的 Token，再進(jìn)行分析和生成。

Token 是什么？

Token ≠ 字符，Token 可以是一個(gè)字、一個(gè)詞，甚至是詞的一部分。

Token 的拆分方式依賴于模型所使用的分詞算法，常見(jiàn)的有以下兩種

字節(jié)對(duì)編碼（BPE）：常用于英文，將詞按子詞拆分。
SentencePiece：支持多語(yǔ)言，更智能地進(jìn)行拆分。

2）token的計(jì)算方式標(biāo)準(zhǔn)是什么？

token其實(shí)沒(méi)有固定的字?jǐn)?shù)限制，2個(gè)字可能是一個(gè)token、3個(gè)字可能是一個(gè)token、4個(gè)字也可能是一個(gè)token。

并且英文的token計(jì)算方式和中文的計(jì)算方式還不一樣。

例：

英文句子

句子：ChatGPT is amazing!

Token 拆分（按 BPE 算法可能是）：[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]

英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’，is 和 amazing 也分別作為獨(dú)立的 Token。

中文句子

句子：大模型很厲害。

Token 拆分（中文一般按字拆分）：[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]

中文中，模型和厲害可能會(huì)被作為整體 Token，也可能被拆開(kāi)，取決于模型的訓(xùn)練數(shù)據(jù)。

如果想知道一段文本的 Token 數(shù)，可以用 OpenAI 提供的 Tokenizer 工具進(jìn)行測(cè)試。網(wǎng)址：https://platform.openai.com/tokenizer

經(jīng)過(guò)本人的調(diào)研以及詢問(wèn)身邊做AI的小伙伴來(lái)看一個(gè)普通人正常問(wèn)一個(gè)問(wèn)題大概在10-30個(gè)字之間。一個(gè)漢字算下來(lái)約等于0.6token，具體看漢字的復(fù)雜程度，最高是一個(gè)漢字一個(gè)token。上下聊天記錄也算token，輸出也算token

為什么 Token 重要？

計(jì)費(fèi)：像 ChatGPT 這類模型，通常按 Token 數(shù)量計(jì)費(fèi)。
模型限制：每個(gè)模型都有最大 Token 長(zhǎng)度限制，比如 GPT-4 的上下文長(zhǎng)度是 128k Token。
輸出預(yù)測(cè)：模型的每次生成，是基于已有 Token 預(yù)測(cè)下一個(gè) Token。

大模型依靠什么計(jì)算token呢

上邊提到大模型會(huì)把問(wèn)題的字?jǐn)?shù)分為不同token，那他是依靠什么來(lái)把字?jǐn)?shù)分為不同token呢？

分詞器

提到token就不得不提到一個(gè)東西那就是「分詞器」

分詞器（Tokenizer）：是將自然語(yǔ)言文本拆分為 Token 并將其映射為模型可理解的數(shù)字 ID的工具。

分詞器和token關(guān)系

分詞器負(fù)責(zé)生成 Token，并將其轉(zhuǎn)化為數(shù)值，供模型使用。
模型訓(xùn)練和推理時(shí)，輸入和輸出的基本單位都是 Token。

總結(jié)：分詞器 = 把文本變成 Token 的工具，Token 是模型理解和處理的基本單元。分詞器的效率和準(zhǔn)確性，直接影響模型的性能和效果。

工作流程圖

流程整體對(duì)比

蒸餾模型是什么？

蒸餾模型（Knowledge Distillation Model） 是一種模型壓縮技術(shù)，通過(guò)將大型模型（教師模型，Teacher Model）的知識(shí)“轉(zhuǎn)移”到一個(gè)更小、更輕量的模型（學(xué)生模型，Student Model），從而提升小模型的性能，同時(shí)減少其計(jì)算資源消耗。

通俗點(diǎn)解釋就是在原有大模型基礎(chǔ)上提取出來(lái)的小模型。Distill蒸餾意思，蒸餾出來(lái)的更小、清量、便捷。

為什么需要蒸餾模型？

大型模型（Teacher Model）：雖然準(zhǔn)確率高，但體積龐大、推理慢、部署成本高。
小型模型（Student Model）：雖然輕量，但準(zhǔn)確率可能不高。
模型蒸餾：將大型模型中的“知識(shí)”提取出來(lái)，教給小模型，使其在更小體積下，接近大型模型的性能。

例子：本地部署Deepseek-R1-（滿血）671B → Deepseek-R1-Distil-70B

類似于Lora模型一般是在一個(gè)底模下煉制出來(lái)，可能是58億或者是120億參數(shù)的大模型，一般在中小企業(yè)用不到，所以只需要在大模型基礎(chǔ)上煉制一個(gè)小模型。一般用在垂直領(lǐng)域、醫(yī)療、出海等

參數(shù)是什么？

在大模型（如大型語(yǔ)言模型，LLM）中，參數(shù)（Parameters）是模型中可學(xué)習(xí)的權(quán)重值，用于定義模型如何處理和理解輸入數(shù)據(jù)。

主要作用

權(quán)重和偏置：每個(gè)神經(jīng)網(wǎng)絡(luò)層中的神經(jīng)元都有對(duì)應(yīng)的權(quán)重（Weight）和偏置（Bias）。這些參數(shù)在訓(xùn)練過(guò)程中不斷被調(diào)整，以最小化模型預(yù)測(cè)與實(shí)際結(jié)果之間的誤差。
學(xué)習(xí)知識(shí)：模型通過(guò)大量的數(shù)據(jù)訓(xùn)練，將數(shù)據(jù)中的模式和規(guī)律“記憶”到這些參數(shù)中。參數(shù)越多，模型捕捉數(shù)據(jù)細(xì)節(jié)的能力通常越強(qiáng)。
規(guī)模越大，能力越強(qiáng)：一般來(lái)說(shuō)，參數(shù)越多，模型的表達(dá)能力越強(qiáng)，能夠處理更復(fù)雜的語(yǔ)言和任務(wù)。
計(jì)算資源和成本：參數(shù)多意味著模型體積更大，訓(xùn)練和推理需要更多的計(jì)算資源和時(shí)間。