久久无码三级片网站，亚洲欧美一级夜夜爽视频，免费人成视频在线观看视频，亚洲Ⅴa中文字幕无码毛片，天天躁日日躁狠狠躁中文字幕，在线天堂中文，人人综合亚洲无线码另类，亚洲欧美在线不卡

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

「小模型」有更多機會點

王智遠(yuǎn)

2025-01-09

0 評論 1048 瀏覽 0 收藏

16 分鐘

在人工智能領(lǐng)域，大模型因其強大的能力和廣泛的應(yīng)用前景備受關(guān)注。然而，小模型同樣蘊藏著巨大的潛力和機會。本文將從“壓縮即智能”的角度出發(fā)，探討小模型在特定領(lǐng)域和垂直行業(yè)中的獨特優(yōu)勢。

為什么要研究語言模型。

原因主要有兩點：

一，喬姆斯基認(rèn)為，語言是思考的工具。要理解人類的心智，必須研究語言，語言和心智是密切相關(guān)，我們的主要觀點是“壓縮論”，人工智能可以表現(xiàn)為一種壓縮的形式。

二，語言非常重要。沒有語言，人類的高級思考就無法進(jìn)行。因此，語言不僅是知識的載體，還是一種高度抽象的符號系統(tǒng)。

那么，為什么選擇語言模型進(jìn)行研究，而不是研究圖像、聲音或其他類型的數(shù)據(jù)呢？很簡單，語言文本的數(shù)據(jù)壓縮更方便，也更省錢。

我把聽課的內(nèi)容總結(jié)了一下，仔細(xì)看后發(fā)現(xiàn)，歷史發(fā)展脈絡(luò)非常有趣，總結(jié)起來就是四個字：壓縮即智能。

01

為什么這么說呢？

14世紀(jì)，英格蘭有個邏輯學(xué)家，名叫威廉·奧卡姆（約1285年至1349年），他提出了一個很有名的原則，叫做「奧卡姆剃刀」。

這個原則的意思是：如果可以用簡單的規(guī)則來解釋一件事情，那么這個簡單的解釋通常是正確的。

聽起來可能有點抽象，但很容易懂。中文里有句老話：“如無必要，勿增實體”，講的就是這個道理。

舉個例子：

在數(shù)學(xué)里，如果我給你一個數(shù)列：1, 2, 3, 5, 8，讓你猜下一個數(shù)字，你可能會想到是13。因為這個數(shù)列是斐波那契數(shù)列，每個數(shù)字都是前兩個數(shù)字的和。

這個解釋很簡單，也很合理。

那為什么我們覺得13是對的，而不是隨便猜一個數(shù)呢？

我隨便說一個數(shù)，然后編一個很復(fù)雜的理由來解釋它，雖然我也可以寫一個程序來證明這個數(shù)是對的，但這會很復(fù)雜。

奧卡姆剃刀告訴我們的就是，如果一個現(xiàn)象可以用簡單的規(guī)則來解釋，那它通常就是對的；因此，最初的研究者普遍遵循奧卡姆剃刀的原則。

后來，有個人提出了不同的看法。

這個人叫雷·所羅門諾夫（1926-2009）他曾經(jīng)參加過達(dá)特茅斯會議，也是會議的發(fā)起者之一，他的研究相對冷門，他覺得，按照奧卡姆剃刀的原理，并不是所有數(shù)字都有可能成為正確答案。

通常情況下，如果一個規(guī)律更容易描述，那它就更可能是正確的。因為我們的世界可能本質(zhì)上是簡單的。宇宙的底層規(guī)則，很可能是一個簡單的原理，而不是復(fù)雜的。

因此，生活中的大多數(shù)現(xiàn)象都可以通過規(guī)律來預(yù)測。但具體怎么做呢？

我們可以把這些規(guī)律寫成圖靈機（模型、公式）的形式，然后同時模擬所有可能的圖靈機；簡單的圖靈機，我們給它更多時間去運行；復(fù)雜的，就給它更少時間。

通過這種方法，我們可以構(gòu)建一個“普世分布”，這意味著，如果你給我一個數(shù)列，讓我預(yù)測下一個數(shù)字，我雖然不能確定具體是哪個數(shù)，但我可以給出一個概率。

這個“普世分布”可以說是對任何序列推理問題的最佳預(yù)測；不過，雖然這個東西客觀存在，也能被理解，但它實際上是不可計算的。因此，它更多是一種哲學(xué)上的思考，而非實際應(yīng)用的工具。

后來，有一個人叫柯爾莫果洛夫（1903-1987），他說：

所羅門諾夫說得對，但我們怎么判斷一個圖靈機或者一個模型是簡單的還是復(fù)雜的呢？不能只靠概率分布吧。

于是，他提出了柯氏復(fù)雜度的公式概念。簡單來說，如果一個序列是正確的，那么可以用一個圖靈機來描述它。圖靈機越簡單，這個序列的復(fù)雜度就越低。

柯氏復(fù)雜度的公式是這樣的：

K(x) = min{|p| : T(p) = x}

這個公式里的 KK是用來預(yù)測某個東西 xx 的圖靈機 CC 的長度。如果 CC 運行后結(jié)果是 xx，那么 CC 的長度越短，復(fù)雜度 KK 就越低。

舉個例子：

設(shè)你有一個數(shù)列：2, 4, 6, 8, 10。你發(fā)現(xiàn)這個數(shù)列的規(guī)律是“每次加2”。于是，你可以用一句話來描述它：“從2開始，每次加2?！边@句話很短，所以這個數(shù)列的“復(fù)雜度”很低。

再看另一個數(shù)列：3, 1, 4, 1, 5。這個數(shù)列看起來沒有規(guī)律，你只能用笨辦法描述它：“第一個數(shù)是3，第二個是1，第三個是4，第四個是1，第五個是5?！边@句話很長，這個數(shù)列的“復(fù)雜度”很高。

需要注意的是，柯氏復(fù)雜度是一個理論上的概念，雖然可以定義，但在實際中無法精確計算。

02

后來，有個人對柯爾莫果洛夫的理論提出了質(zhì)疑，他叫尤爾根·施密德胡伯，人們稱他為長短期記憶（LSTM）之父。

他說：

柯爾莫果洛夫的理論并不完全正確。簡單性不僅僅是用一個簡單的圖靈機生成序列，如果這個圖靈機需要運行100年才能生成結(jié)果，那這還能算是成功的描述嗎？

簡單性應(yīng)該包括圖靈機的運行速度。

也就是說，生成序列所需的計算時間越短，復(fù)雜度就越低?！边@就是他提出的“速度優(yōu)先”原則。因此，計算的速度優(yōu)先是很重要的。

為什么要速度優(yōu)先呢？

還有一點，因為以前的研究是基于符號主義的。什么是符號主義（Symbolic AI 或 Logical AI）？簡單來說，用符號和規(guī)則來表示知識，然后通過邏輯推理來解決問題。

舉個例子，如果我們知道“鳥會飛”和“企鵝是鳥”，符號主義會推理出“企鵝會飛”。但實際上，企鵝是不會飛的。這就出問題了。

這里有兩個主要困難：

一，柯爾莫果洛夫復(fù)雜度的限制。復(fù)雜的系統(tǒng)可以生成簡單的東西，但簡單的系統(tǒng)無法生成復(fù)雜的東西。這是一個基本的不等式。比如，一個復(fù)雜的程序可以生成簡單的數(shù)列，但一個簡單的程序無法生成復(fù)雜的數(shù)列。

第二，人類大腦是一個黑盒，要模擬人類大腦的功能，需要多高的復(fù)雜度呢？我們猜它應(yīng)該是很高的復(fù)雜度，因為人類研究了這么多年，還沒完全搞明白。這說明大腦的復(fù)雜度非常高，可能是一串很大的數(shù)字。

如果我們試圖用符號主義的方法，通過編寫規(guī)則或程序來模擬人類智能，這幾乎是不可能的。

舉個例子：

我們從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù)，把世界上所有網(wǎng)頁的文字都抓下來。這些數(shù)據(jù)有多大呢？可能是幾百PB（一種很大的數(shù)據(jù)單位）。它的復(fù)雜度非常高。

雖然這些文字是人類寫的，可能有一定的規(guī)律，可以壓縮得小一些，但它仍然有很大的復(fù)雜度。這個復(fù)雜度，甚至可能超過人腦的復(fù)雜度。

如果我們把這些數(shù)據(jù)加上某種模型，就有可能達(dá)到和人腦類似的智能功能，這樣，就解決了符號主義的一個根本缺陷。因此，轉(zhuǎn)向數(shù)據(jù)驅(qū)動的方法是必然的。如果沒有數(shù)據(jù)，你根本不知道復(fù)雜度從哪里來。

既然復(fù)雜度已經(jīng)很高了，我們還希望它是可解釋的，這就比較難了。

你只能在某些特定方面解釋它，但無法完全搞清楚它的原理。就像研究人腦，你可以研究一些局部的機制，但要想完全弄清楚整體原理，幾乎是不可能的。因為人類只能理解簡單的東西。

03

我們今天的大語言模型是什么呢？它就是用很高復(fù)雜度的數(shù)據(jù)，通過算法壓縮，得到一個相對較小但仍然復(fù)雜的模型。這個模型可以比較準(zhǔn)確地預(yù)測語言。

有了這個模型，我們只需要補充一點點信息，就能恢復(fù)原始數(shù)據(jù)。所以，大語言模型其實是一個數(shù)據(jù)壓縮的過程，而模型本身是數(shù)據(jù)壓縮的結(jié)果。

直到2019年3月，強化學(xué)習(xí)領(lǐng)域的重要人物，加拿大阿爾伯塔大學(xué)教授的Rich Sutton寫了一篇文章，叫做《The Bitter Lesson》，中文翻譯成“苦澀的教訓(xùn)”。

這篇文章總結(jié)了人工智能領(lǐng)域過去70年的發(fā)展歷程。很多公司，比如OpenAI，都遵循這篇文章里的原理，Rich Sutton講了一個重要的觀點：

從1950年代開始，在人工智能的研究中，研究者們經(jīng)常覺得自己很聰明，發(fā)現(xiàn)了一些巧妙的方法，然后把這些方法設(shè)計到智能算法里，短期內(nèi)，這種做法確實有用，能帶來一些提升，還能讓人感到自豪，覺得自己特別厲害。

但長期來看，這種做法是行不通的，因為再聰明的人，也不可能一直聰明下去。如果只做這種研究，最終反而會阻礙進(jìn)步。

真正取得巨大突破的，往往不是那些精巧的設(shè)計，而是在計算和學(xué)習(xí)上投入更多資源。這種方法雖然看起來笨，卻能帶來革命性的提升。

歷史上，每次人工智能的重大進(jìn)步，都伴隨著這種“苦澀的教訓(xùn)”。但人們往往不喜歡吸取這種教訓(xùn)，因為它有點反人性。

我們更喜歡贊美人類的智慧，設(shè)計一些巧妙的算法，覺得這樣才高級。而用大量數(shù)據(jù)和算力去訓(xùn)練模型，雖然能成功，卻讓人覺得不夠“聰明”。

這種“大力出奇跡”的成功，常常被人看不起。但事實一次又一次證明，這種看似笨的方法，才是真正有效的；這也解釋了為什么我們要做大模型——因為只有通過大規(guī)模的計算和學(xué)習(xí)，才能實現(xiàn)真正的突破。

因此，開發(fā)大模型并非為了展示技術(shù)實力，而是因為它確實能帶來顯著的成果，這就是為什么我們要在基礎(chǔ)設(shè)施上投入更多資源，去支持這些大模型的訓(xùn)練和發(fā)展。

04

所以，壓縮即智能。通過壓縮數(shù)據(jù)，模型能夠提取出更高層次的特征和規(guī)律，從而表現(xiàn)出智能行為。那么，這個“壓縮即智能”的說法是誰提出的呢？

從2006年開始，德國人工智能研究員Hutter Prize每年都會舉辦一個比賽。這個項目叫，Hutter Prize for Lossless Compression of Human Knowledge（簡稱 Hutter 獎）

比賽的目標(biāo)是：把1GB的維基百科數(shù)據(jù)壓縮到110兆。

截圖來源：hutter獎官網(wǎng)，地址：http://prize.hutter1.net

如果你能壓縮得比這個更小，就說明你的壓縮方法更聰明，這個比賽的總獎金是50萬美元，目前已經(jīng)支付了29萬多美元。

不過，放在七八年前，這個比賽可能還挺有意義的。但今天再看，1GB的數(shù)據(jù)量顯得有點小了，畢竟，現(xiàn)在的模型動不動就處理幾百GB甚至更多的數(shù)據(jù)。

如果你有興趣，可以去試試這個比賽，里面還有很多符號主義的方法，大模型的思路還沒完全用上。

那么，怎么提高壓縮的效果呢？主要有幾條路：

一，更聰明的算法；以前用n-gram這種統(tǒng)計方法，效率很低。雖然數(shù)據(jù)量大，但模型效果一般?，F(xiàn)在有了更聰明的算法，比如深度學(xué)習(xí)，能更高效地利用數(shù)據(jù)，訓(xùn)練出更大的模型，而且不會過擬合。

二，更多的數(shù)據(jù)；數(shù)據(jù)越多，模型效果越好。但問題是，互聯(lián)網(wǎng)上的數(shù)據(jù)已經(jīng)抓得差不多了，還能從哪里找更多數(shù)據(jù)呢？

兩個維度，用更小的模型垂直到行業(yè)的本地知識（local knowledge）中讓所有人用起來，然后，小模型投喂給大模型，最終加上訓(xùn)練時間。

尤爾根·施密德胡伯（LSTM之父）提出，速度也很關(guān)鍵。如果投入更多時間訓(xùn)練，模型的效果可能會更好。這也是OpenAI等公司走的路線。

所以，如果你相信“壓縮即智能”的觀點，那么在同樣的數(shù)據(jù)量下，小模型如果能達(dá)到和大模型一樣的效果，那小模型顯然更聰明。

說到這，不妨思考下：為什么今天還要研究大模型？

因為根據(jù)柯爾莫果洛夫復(fù)雜度，只有足夠大的模型，才有可能接近通用人工智能的目標(biāo)，雖然小模型的研究也有意義，但最終要實現(xiàn)通用人工智能，大模型是不可避免的。

因此，一個結(jié)論是：如果你的目標(biāo)是AGI，那做大無疑是最佳選擇，你的目標(biāo)是細(xì)分垂直，小模型最劃算。理解這一點，也就理解了，大廠為什么追求大模型，但往往，小模型，有更多機會點。

本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】，微信公眾號：【王智遠(yuǎn)】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

王智遠(yuǎn)

公眾號：王智遠(yuǎn) |暢銷書《復(fù)利思維》作者；左手營銷方法論，右手心智成長。

244篇作品 1328456總閱讀量

StarMaker之后，昆侖萬維悄悄入局海外游戲語音社交？

01-063707 瀏覽

ToB產(chǎn)品如何進(jìn)行有效的業(yè)務(wù)溝通與調(diào)研？

09-272947 瀏覽

飛行模式下，我在嘗試做一個「廢物」

08-116078 瀏覽

Forrester：測量CX表現(xiàn)，證明CX價值

12-06414 瀏覽

京東·拼多多·阿里·618的中場戰(zhàn)事

06-122076 瀏覽

評論

目前還沒評論，等你發(fā)揮！

獨家｜多閃變身抖音版“微信”，還能挑戰(zhàn)社交霸主嗎？

09-191728 瀏覽
一文管好中臺產(chǎn)品日常工作

08-146035 瀏覽
蘋果 VisionOS 交互的近 10 年研究總結(jié)

08-213208 瀏覽