通俗易懂講AI:5分鐘搞懂小模型/大模型/多模態(tài)特點(diǎn)!使用效果翻倍!

0 評(píng)論 1253 瀏覽 3 收藏 14 分鐘

隨著人工智能技術(shù)的飛速發(fā)展,小模型、大模型、推理模型和多模態(tài)大模型等概念層出不窮,讓人眼花繚亂。本文將用通俗易懂的語言,幫助大家在5分鐘內(nèi)快速理解這些模型的特點(diǎn)、區(qū)別以及它們?cè)诓煌瑘?chǎng)景中的應(yīng)用。

現(xiàn)在很火的大模型到底是哪里來的,看下面這個(gè)圖,熟悉生物學(xué)的應(yīng)該一眼看出,這個(gè)是神經(jīng)突觸傳遞示意圖。沒錯(cuò),現(xiàn)在的AI大模型的技術(shù)來源就是受人腦啟發(fā)演變而來的,盡管我們對(duì)真實(shí)的人腦運(yùn)作認(rèn)知有限。

AI領(lǐng)域的模型大小都是以自身的參數(shù)量為衡量的,根據(jù)行業(yè)經(jīng)驗(yàn),大模型的參數(shù)量是10億起步,因?yàn)楹饬看竽P蛥?shù)的單位就是billion。

步入正文前疊個(gè)甲,下面這個(gè)圖片都不陌生,但你知道這2個(gè)按鈕該怎么使用嗎?什么時(shí)候開?什么時(shí)候關(guān)?后面給出答案。

小模型

顧名思義就是模型參數(shù)較小的模型,特點(diǎn)如下:

  • 參數(shù)量較小,在AI領(lǐng)域,參數(shù)量在1億(0.1B)以下的模型通常被稱為小模型。
  • 計(jì)算需求較低,可以在資源有限的設(shè)備上運(yùn)行,如手機(jī)、嵌入式系統(tǒng)等。
  • 訓(xùn)練數(shù)據(jù)需求相對(duì)較少。
  • 專注于特定任務(wù),例如圖像分類、目標(biāo)檢測(cè)、語音識(shí)別等。

使用場(chǎng)景:

  • 移動(dòng)設(shè)備上的實(shí)時(shí)應(yīng)用,如相機(jī)應(yīng)用中的人臉識(shí)別,物體檢測(cè)(方形框)。
  • 物聯(lián)網(wǎng)(IoT)設(shè)備上的邊緣計(jì)算,如智能傳感器。

神經(jīng)網(wǎng)絡(luò)模型示意圖如下:

模型結(jié)構(gòu)分為輸入層、隱藏層、輸出層。區(qū)分是大模型還是小模型就是中間隱藏層參數(shù)的層數(shù)和每一層參數(shù)量之和。比如下面這定義為小模型。

與之相對(duì),當(dāng)我們把隱藏層的層數(shù)和每一層參數(shù)量不斷擴(kuò)大后,達(dá)到一定程度,就變?yōu)榇竽P停簿褪俏覀儸F(xiàn)在熟知的大語言模型。如下圖:

大語言模型 (Large Language Models, LLMs)

特點(diǎn)如下:

  • 參數(shù)量巨大,通常在數(shù)百億到數(shù)千億之間。
  • 在海量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠生成高質(zhì)量的自然語言文本。
  • 具有較強(qiáng)的通用性,可以完成多種自然語言處理任務(wù),如文本生成、翻譯、問答、摘要等。
  • 智能涌現(xiàn),當(dāng)模型學(xué)習(xí)一定程度后,慢慢的會(huì)舉一反三,給他一個(gè)沒有見過的語言問題,也能嘗試解答。

使用場(chǎng)景:

  • 聊天機(jī)器人: 提供對(duì)話式交互,例如客服機(jī)器人、虛擬助手。
  • 文本生成: 創(chuàng)作各種類型的文本,例如文章、詩歌、劇本。
  • 機(jī)器翻譯: 將文本從一種語言翻譯成另一種語言等等。幾乎所有語言處理的任務(wù)都可以使用大語言模型和小模型不一樣的是,大模型的受眾更廣,想用的好使用也會(huì)有一定門檻

使用技巧:

  • 提示工程 (Prompt Engineering): 設(shè)計(jì)有效的提示語,引導(dǎo)模型生成所需的輸出。
  • 清晰明確的指令: 準(zhǔn)確描述所需的任務(wù)和輸出格式。
  • 提供上下文: 提供足夠的背景信息,幫助模型理解任務(wù)。
  • 少樣本學(xué)習(xí) (Few-shot Learning): 在提示中提供少量示例,幫助模型學(xué)習(xí)新的任務(wù)。
  • 微調(diào) (Fine-tuning): 在特定領(lǐng)域的數(shù)據(jù)上進(jìn)一步訓(xùn)練模型,提高其在該領(lǐng)域的性能。
  • 檢索增強(qiáng)生成 (Retrieval Augmented Generation, RAG): 結(jié)合外部知識(shí)庫,提高生成文本的準(zhǔn)確性和相關(guān)性。

這個(gè)里面的各個(gè)概念我們會(huì)單獨(dú)出一篇文章,詳細(xì)介紹給大家。上面這么多概念技巧表明,想讓大語言模型發(fā)揮效果,其實(shí)是要借助各種工具的,模型自身就有很大局限。所以想用好,還是要好好學(xué)習(xí)一番,想學(xué)習(xí)AI的,可以評(píng)論區(qū)留言,告訴我你想解決什么問題

推理大模型

有了大語言模型,為什么還要推理大模型?

推理大模型誕生的背景,當(dāng)然是語言大模型的局限性

語言大模型(如GPT系列)雖然在文本生成、對(duì)話等任務(wù)上表現(xiàn)出色,但其核心能力仍局限于“直進(jìn)直出”概率驅(qū)動(dòng)的文本預(yù)測(cè),這導(dǎo)致以下問題:

  • 復(fù)雜任務(wù)表現(xiàn)不足:在數(shù)學(xué)證明、科學(xué)問題求解等需要多步分解的任務(wù)中,傳統(tǒng)語言模型易出現(xiàn)邏輯斷裂或“幻覺”。
  • 缺乏反思能力:模型無法像人類一樣通過“慢思考”驗(yàn)證中間步驟,導(dǎo)致錯(cuò)誤累積

推理大模型怎么工作的?

  • 思維鏈技術(shù):核心是“分步思考”。通俗說就是大的問題分布拆解若干步驟,然后求解。但是和人的真正思考不是一回事,畢竟現(xiàn)在人的智能還沒有被解析。
  • 強(qiáng)化學(xué)習(xí)訓(xùn)練:通過“試錯(cuò)”學(xué)習(xí),像教小孩做題:做對(duì)了獎(jiǎng)勵(lì),錯(cuò)了就調(diào)整。這讓模型自己學(xué)會(huì)最優(yōu)推理路徑(如OpenAI的o1系列)

推理模型真的會(huì)推理嗎?

  • 答案很微妙:它會(huì)模擬人類推理的“表面行為”,但不會(huì)像人類一樣“理解邏輯”。
  • 像推理的“演員”:模型通過海量數(shù)據(jù)學(xué)習(xí)解題步驟的規(guī)律(比如先設(shè)變量、再列方程),但不懂背后的數(shù)學(xué)原理。
  • 作弊式推理:它像考試時(shí)偷偷帶小抄,把“看到問題→匹配套路→輸出答案”變成肌肉記憶。
  • 人類開掛法:為了讓模型更像“真會(huì)推理”,工程師還會(huì)用數(shù)學(xué)題答案當(dāng)參考答案逼它練習(xí)(強(qiáng)化學(xué)習(xí)),或者讓它調(diào)用計(jì)算器算數(shù)(工具增強(qiáng))。

總結(jié)一下:推理模型不會(huì)真的推理,只是在模仿人思考的模板,就是學(xué)套路學(xué)得好。不信可以看下面這個(gè)例子:

解答模式真的沒問題,但是不是哪里不太對(duì)?看下面

首先有翅膀不意味著會(huì)飛,比如雞就有翅膀

湯姆貓顯然是一個(gè)動(dòng)畫角色,模型此時(shí)就不知道“變通”啦

總結(jié):沒有常識(shí),只會(huì)按照固定的模版執(zhí)行

如果我們這樣問:“湯姆貓是什么劇中的那個(gè)角色?”

結(jié)合上面2個(gè)事例,可以知道其實(shí)模型是有這方面的記憶,但是它不知道“聯(lián)想和思考”

deepseek界面為例,介紹不同按鈕的功能和作用

大家用了這么長(zhǎng)時(shí)間的大模型,是否明白上面2個(gè)按鈕打開或關(guān)閉分別起什么作用嘛?

  • 聯(lián)網(wǎng)和深度思考都開:推理模型R1回答問題時(shí)會(huì)結(jié)合搜索到的互聯(lián)網(wǎng)內(nèi)容進(jìn)行解答
  • 聯(lián)網(wǎng)和深度思考都關(guān)閉:那就是deepseek的V3模型自己在進(jìn)行問題解答
  • 聯(lián)網(wǎng)開和深度思考關(guān)閉:V3模型回答問題時(shí)會(huì)結(jié)合搜索到的互聯(lián)網(wǎng)內(nèi)容進(jìn)行解答
  • 聯(lián)網(wǎng)關(guān)閉和深度思考開:那就是deepseek的推理模型R1自己在進(jìn)行問題解答

那么,在使用中,“深度思考”和“聯(lián)網(wǎng)搜索”按鈕打開或關(guān)閉的分別適用場(chǎng)景和作用是什么?

深度思考(DeepSeek-R1模式)

  • 作用:調(diào)用深度推理模型,專注于復(fù)雜邏輯分析、多步驟推演和長(zhǎng)文本處理(如數(shù)學(xué)建模、代碼調(diào)試、學(xué)術(shù)論文解析)。
  • 優(yōu)勢(shì):回答準(zhǔn)確性高,支持256k超長(zhǎng)上下文記憶,適合專業(yè)領(lǐng)域問題
  • 劣勢(shì):響應(yīng)速度較慢,無法實(shí)時(shí)獲取外部信息,個(gè)別時(shí)候推理會(huì)帶來“致幻”

聯(lián)網(wǎng)搜索(實(shí)時(shí)檢索模式)

  • 作用:接入互聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)(如新聞、政策、學(xué)術(shù)論文)和平臺(tái)生態(tài)內(nèi)容(公眾號(hào)、視頻號(hào)),解決時(shí)效性問題。
  • 優(yōu)勢(shì):信息更新快(如股票行情、賽事比分),整合多源數(shù)據(jù)(3000+信源)增強(qiáng)答案權(quán)威性。
  • 劣勢(shì):可能引入噪聲干擾,響應(yīng)速度略慢

何時(shí)開啟?

何時(shí)關(guān)閉?

大語言模型一般只能處理文本信息,如果想結(jié)合圖文音視頻信息解決問題,就需要多模態(tài)大模型

多模態(tài)大模型

特點(diǎn):

  • 能夠處理多種類型的輸入數(shù)據(jù),例如文本、圖像、音頻、視頻等。
  • 通過跨模態(tài)學(xué)習(xí),理解不同模態(tài)數(shù)據(jù)之間的關(guān)系。
  • 能夠生成多種模態(tài)的輸出,例如根據(jù)文本生成圖像,或者根據(jù)圖像生成描述。

使用場(chǎng)景:

  • 跨模態(tài)檢索: 根據(jù)一種模態(tài)的數(shù)據(jù)檢索另一種模態(tài)的數(shù)據(jù),例如根據(jù)文本描述搜索圖像。
  • 視覺問答 (Visual Question Answering, VQA): 回答與圖像內(nèi)容相關(guān)的問題。
  • 圖像描述生成 (Image Captioning): 生成描述圖像內(nèi)容的自然語言文本。
  • 多模態(tài)對(duì)話: 進(jìn)行涉及多種模態(tài)信息的對(duì)話,例如“這張圖片中的人正在做什么?” (需要理解圖像內(nèi)容)。
  • 具身智能 (Embodied Intelligence): 幫助智能體理解周圍環(huán)境并與之交互。

現(xiàn)有模型能力,輸入可以是文本、圖像、音頻、視頻等。但是輸出還是局限在文字和圖片(圖片能力進(jìn)化中)。隨著模型能力和邊界的擴(kuò)展,未來模型可實(shí)現(xiàn)下圖構(gòu)思。

總結(jié)

不是功能越豐富就越好,要根據(jù)問題的特點(diǎn)選擇合適的模型和輔助工具。不是每個(gè)問題都需要使用推理模型,因?yàn)槟P驮谕评淼倪^程中會(huì)出現(xiàn)推理錯(cuò)誤,從而導(dǎo)致“致幻”回復(fù)。

作者:帥森森,公眾號(hào):帥森森聊AI和職場(chǎng)

本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!