【AI大模型】非技術(shù)背景,一文讀懂大模型(長文)
本文旨在探討大模型的工作原理、應(yīng)用場景及其未來的發(fā)展趨勢,以期為讀者提供一個(gè)全面、客觀的視角。我們將從大模型的整體架構(gòu)、工作原理、以及市面上現(xiàn)有的AI產(chǎn)品等方面進(jìn)行深入剖析,幫助大家更好地理解這項(xiàng)前沿技術(shù)。
一、寫在前面
寫這篇文章的初衷,源于近期涌起的唱衰AI大模型的風(fēng)潮。不少人在對大模型的機(jī)制及當(dāng)下的商業(yè)形態(tài)進(jìn)行了初步了解后,便斷言大模型是一場“騙局”,是資本操控的鬧劇。同時(shí),近來不管是投資領(lǐng)域還是各大廠,似乎都開始謹(jǐn)慎衡量做大模型這件事的投資回報(bào)率(ROI)。難道大模型當(dāng)真不像去年眾人所認(rèn)定的那樣,是一場所謂的“革命”嗎?
唱衰大模型的人,大多持有這樣的觀點(diǎn):他們覺得大模型僅能實(shí)現(xiàn)像chatbox、文生圖、圖生圖、生視頻、生音頻之類的功能,難以找到可商用的場景,更別說其中部分功能還可能存在幻覺問題。同時(shí),大模型的算力也是有成本的,而且價(jià)格不低。
所以問題就出現(xiàn)了,即我們做出了一個(gè)個(gè)看似出色的ai產(chǎn)品,用戶日活量或許也很高,但高日活帶來的是高機(jī)器算力費(fèi)用,而這筆費(fèi)用又無法從活躍用戶身上獲取,所以這個(gè)商業(yè)模式就難以形成閉環(huán)了。
所以這種理解倒不能說是錯(cuò)誤的,但這是建立在兩個(gè)前提之上的。
第一,大模型確實(shí)后續(xù)也僅能用在聊天以及生成圖片、文字、視頻了;第二,算力的費(fèi)用會持續(xù)居高不下。但在我看來,這兩點(diǎn)都是不成立的。首先關(guān)于第二點(diǎn)的算力的問題,已經(jīng)有許多解決方案了,不論是模型蒸餾,還是蘋果的端云方案等等,我認(rèn)為今年內(nèi)算力成本問題將不再是難題。
那么第一點(diǎn),其實(shí)也是今日的重點(diǎn)。而要知曉一個(gè)新事物究竟能夠帶來什么樣的改變,我認(rèn)為首先是先需要明晰其運(yùn)作原理究竟是怎樣的。實(shí)際上,我也看過市面上很多有關(guān)大模型的科普文章,坦白講,對于非技術(shù)人員而言,理解起來頗具難度。
所以,我期望這篇文章能通過最為直白、最為簡單的描述,幫助各位產(chǎn)品同學(xué),理解何為大模型,大模型是如何運(yùn)作的,大模型究竟帶來了什么,以及我們究竟該去怎么看待這次大模型的浪潮。
二、大模型的整體架構(gòu)
首先為方便大家對大模型有一個(gè)整體的認(rèn)知,我們先從大模型的整體架構(gòu)著手,來看看大模型的組成是怎么樣的。
下面是我大致分的個(gè)層。從整體分層的角度來看,目前大模型整體架構(gòu)可以分為以下幾層:
1. 基礎(chǔ)層:為大模型提供硬件支撐,數(shù)據(jù)支持等
例如A100、數(shù)據(jù)服務(wù)器等等。
2. 數(shù)據(jù)層
這里的數(shù)據(jù)層指的不是用于基層模型訓(xùn)練的數(shù)據(jù)基集,而是企業(yè)根據(jù)自己的特性,維護(hù)的垂域數(shù)據(jù)。分為靜態(tài)的知識庫,和動態(tài)的三方數(shù)據(jù)集
3. 模型層:LLm或多模態(tài)模型
LLm這個(gè)大家應(yīng)該都知道,large-language-model,也就是大語言模型,例如GPT,一般使用transformer算法來實(shí)現(xiàn)。
多模態(tài)模型即市面上的文生圖、圖生圖等的模型,訓(xùn)練所用的數(shù)據(jù)與llm不同,用的是圖文或聲音等多模態(tài)的數(shù)據(jù)集
4. 平臺層:模型與應(yīng)用間的平臺部分
比如大模型的評測體系,或者langchain平臺等,提供模型與應(yīng)用間的組成部分
5. 表現(xiàn)層:也就是應(yīng)用層,用戶實(shí)際看到的地方
這個(gè)就很好理解了,就不用我多作解釋了吧
三 、理解模型如何運(yùn)作
在上面我們分解的大模型架構(gòu)中,其他幾層其實(shí)對于產(chǎn)品同學(xué)而言都是很好理解的。但其核心的模型層,也就是LLm和多模態(tài),我相信很多人還是對其感到迷惑。為什么我輸入一段文字后,模型就能給生成對應(yīng)的回復(fù)?為什么模型可以根據(jù)我輸入的文字去生成視頻和圖片?
這里我們不擺論文和學(xué)術(shù)性的講解,我用盡可能通俗的方式來給大家講解一下其原理。當(dāng)然有興趣的同學(xué)可以再深入的去學(xué)習(xí)。
1. LLm工作原理
首先講一下LLm,即large-language-model,大語言模型的工作原理。
我們可以觀察LLm大模型比如豆包在回復(fù)的時(shí)候,是不是一個(gè)一個(gè)字,行業(yè)里稱之為流式輸出的方式給你呈現(xiàn)內(nèi)容的。為什么會這樣呢?這是因?yàn)椋竽P痛_實(shí)是在一個(gè)字一個(gè)字地去推理生成內(nèi)容的。
就好像我們看輸入法的輸入聯(lián)想邏輯,輸入聯(lián)想,其實(shí)就是根據(jù)你輸入的單個(gè)字,來推測你要輸入的下個(gè)字是什么。比如我打了一個(gè)“輸”字,那么我要打的下字就很有可能是“入”,當(dāng)然這里就會有人問了,我要打的下個(gè)字也很有可能是“球”啊。
沒錯(cuò),最開始的研究人員確實(shí)也識別到了這個(gè)問題。那么解法是什么呢?其實(shí)很簡單,我們把上下文加入到輸入里,不就能幫助模型理解下個(gè)字該是什么了嗎。
比如我們輸入的是“我想在這個(gè)單元格中輸”,那這下一個(gè)字大概率就是“入”。而我們?nèi)绻斎氲氖恰斑@場足球比賽中,輸”,那下一個(gè)字大概率就是“球”。
那么看到這里,善于思考的同學(xué)可能會發(fā)現(xiàn)這里存在
第一,我們知道大模型的學(xué)習(xí)數(shù)據(jù)規(guī)模往往是海量的,每次的計(jì)算如果都帶入全量的數(shù)據(jù),算力上肯定是吃不消的。
第二,僅去算字的概率,似乎也有問題。因?yàn)槲覀冇糜谟?xùn)練的文章數(shù)據(jù)等,往往是出于各種場景各種背景寫就的。僅去算下個(gè)字出現(xiàn)的概率,容易會被各種不相干的信息干擾。
是的,研究人員同樣也遇到了這兩個(gè)問題,而這時(shí),兩個(gè)概念的出現(xiàn)解決了這一難題。一個(gè)是詞向量機(jī)制,一個(gè)是transformer模型中的attention自注意力機(jī)制。
1)詞向量機(jī)制
詞向量機(jī)制怎么理解呢?可以理解為把我們?nèi)S生活中的詞,行業(yè)里稱之為詞元,或者token,去進(jìn)行一次拍平,降維到向量空間,也被稱為潛空間,或者latentspace中去。比如一個(gè)詞“楊柳”,在latentspace中,它不僅帶有“植物”這一生物學(xué)的向量表示,也帶有著“送別”的向量表示,也帶有著“人名”的向量表示。這些向量表示,行業(yè)里稱為feature,中文翻譯是“特征”,但說實(shí)話我覺得翻譯為“意象”,更能表達(dá)其含義。
為什么說是意象呢,因?yàn)檫@個(gè)“楊柳”究竟在當(dāng)前語境中表達(dá)什么含義,取決于其上下文而決定。這不正像是我們詩歌作品中的“意象”嘛
所以詞向量就是,大模型通過海量的文檔學(xué)習(xí),把三維世界中的“詞元”,轉(zhuǎn)化為了latentspace中的“意象”的過程。比如“楊柳”,在latentspace中的表達(dá)可能就是[01,56,42]這樣的表達(dá)。
這樣轉(zhuǎn)換之后,其實(shí)就解決了第一個(gè)問題,即我們把學(xué)習(xí)資料轉(zhuǎn)化為了latentspace中的詞向量,而在這個(gè)潛空間中運(yùn)算的效率可以大大的增加,且詞向量的表達(dá)方式可以表示出機(jī)器學(xué)習(xí)中,詞匯之前的語義關(guān)系。
2)attention層
而第二個(gè)問題,被transformer模型中的自注意力機(jī)制解決。自注意力機(jī)制可以理解為,在機(jī)器訓(xùn)練中,我們加入了若干的attention層,每一個(gè)層都會對輸入的信息進(jìn)行學(xué)習(xí)和理解記憶。
打個(gè)比方,“我今天吃了獅子頭和蔬菜”這句話,在transformer中,會由attention層對這句話加入更多的信息來補(bǔ)充。比如補(bǔ)充“獅子頭是一道菜”“今天是星期六”等等。這些補(bǔ)充信息,會作為輸入給到下一個(gè)attention層進(jìn)行補(bǔ)充。當(dāng)然有些信息可能是不重要的,也會被忽視掉。最終層與層之間,哪些信息需要補(bǔ)充,哪些信息需要保留,哪些信息傳遞,均由模型自主學(xué)習(xí)完成。而最終學(xué)習(xí)的結(jié)果就是,模型可以把海量的數(shù)據(jù)以關(guān)系網(wǎng)的形式“消化”掉,并保留其重要的相關(guān)性。
這些表述可能還不夠直觀,再打個(gè)比方,這些層就好像人在去閱讀文章的時(shí)候的一個(gè)連貫性注意力的過程。就好像我們在去閱讀理解一篇文章的時(shí)候,腦子里會對輸入的內(nèi)容進(jìn)行消化然后吸收記憶,而記憶下來的不是點(diǎn)狀的知識,而是網(wǎng)狀的經(jīng)驗(yàn)。
3)再形象些的比喻
llm的原理基本就是這樣了,總結(jié)起來就是大模型以詞向量和transformer的模型學(xué)習(xí)了海量的知識,把知識作為向量空間中的一種關(guān)系網(wǎng)進(jìn)行存儲,并在接受輸入時(shí),通過向量空間中的一系列匹配進(jìn)行輸出。
這個(gè)過程其實(shí)大家想一想,是不是就像是人腦在閱讀學(xué)習(xí)的個(gè)過程?比如我們在記憶一些資料時(shí),其實(shí)記憶的也不可能是逐字逐句去記憶的,也是按照相關(guān)性,重要程度,再結(jié)合歷史經(jīng)驗(yàn)信息進(jìn)行記憶的。記憶下來的東西,也不是一個(gè)個(gè)的文字,而更像是一種感覺,一種“意象”。
再比如我們?nèi)タ醇t色,會覺得這個(gè)代表溫暖,代表強(qiáng)烈,這也是因?yàn)槲覀冊谌ビ洃涍@個(gè)信息時(shí),同時(shí)受到來自生理、社會倫理等的關(guān)聯(lián)記憶,所以一個(gè)簡單的“紅色”在我們的腦海中記憶時(shí),也不僅是一個(gè)簡單的詞語,而是帶有了很多的“feature”信息。
當(dāng)然我這里僅是為了幫助大家理解,簡化抽象了很多概念。LLm這塊如有感興趣想進(jìn)階的同學(xué),可以再看這篇文章進(jìn)階學(xué)習(xí)下。
https://www.understandingai.org/p/large-language-models-explained-with
2. 多模態(tài)的原理
ok講完了LLm,我們來看多模態(tài)是怎么實(shí)現(xiàn)的
多模態(tài)模型目前基本就是文生圖、圖生圖、圖生視頻、文生視頻這些,其底層邏輯其實(shí)還是先從生圖片這一源頭。因?yàn)楫吘挂曨l也是若干幀的圖片組成。
所以在生圖片的這個(gè)環(huán)節(jié)上,我們把比較火的這個(gè)stablediffusion用的這個(gè)diffusion擴(kuò)散模型理解掉,也就差不多夠了。
那么什么是擴(kuò)散模型呢,這里我拿論文中的兩張圖幫助理解
一張是前向的,在圖片上加噪點(diǎn),最終生成一張無意義的噪點(diǎn)圖,一個(gè)是后向的,從一個(gè)無意義的噪點(diǎn)圖上消除噪點(diǎn),最終得到一張有意義的實(shí)際圖片。
其實(shí)擴(kuò)散模型訓(xùn)練的就是這個(gè)加減噪點(diǎn)的過程:先把海量的帶有標(biāo)注文字描述的圖片,例如“一只白色的小貓”,逐漸加滿噪點(diǎn)。在這個(gè)過程中,模型會把每一步的圖片向量值,和文字的向量值的數(shù)據(jù)分布的演變規(guī)律,進(jìn)行系統(tǒng)學(xué)習(xí)并沉淀下來,這就完成了模型的訓(xùn)練。
在后續(xù)我們輸入文字后,模型就可以根據(jù)輸入的文字轉(zhuǎn)化為的向量,去指導(dǎo)一個(gè)充滿噪點(diǎn)的圖片每一步減噪點(diǎn)的過程,生成最終的圖片。
這里其實(shí)有兩個(gè)點(diǎn)
一個(gè)是diffusion模型中加減噪點(diǎn)的方式,其實(shí)也與我們大腦中去構(gòu)思一張圖片的方式有些類似,我們?nèi)ハ胂褚粡垐D片的時(shí)候,不也是從一片模糊中逐漸想清楚一張圖片嘛
第二個(gè)是多模態(tài)模型會把文字的向量值和圖片的rgb像素點(diǎn)的向量值進(jìn)行關(guān)聯(lián),這個(gè)也像極了我們大腦中的一個(gè)思考過程。
當(dāng)然這個(gè)過程比我描述的還要更復(fù)雜,比如過程里還要考慮到,噪點(diǎn)圖的原始狀態(tài),加減噪點(diǎn)的過程需要多少步,每一步需要加入的噪點(diǎn)分布等等,這里僅為了大家理解方便,僅對主干邏輯作了講解。
如有感興趣的同學(xué),可以看一下張濤老師對diffusion原理做的一次分享。個(gè)人認(rèn)為這個(gè)分享質(zhì)量非常棒
【產(chǎn)品人如何學(xué)習(xí) AI?以 Stable Diffusion 原理及發(fā)展歷程為例】 https://www.bilibili.com/video/BV1wZ421h7w7/?share_source=copy_web&vd_source=e20dab09b86a96c6538305ab6db6b7b1
四、再補(bǔ)充一些概念
ok,在我們對于兩個(gè)重要的基礎(chǔ)模型,llm大語言模型和多模態(tài)模型的原理有了基礎(chǔ)的認(rèn)知后,我們可以再進(jìn)一步,去理解下一些大模型領(lǐng)域常見的些術(shù)語名詞,究竟是在干些什么,以及都能干什么。
1. prompt
prompt這個(gè)詞很多人都聽到過,甚至一度還出現(xiàn)過prompt優(yōu)化師這樣的角色。那么prompt是做什么的呢?
prompt其實(shí)是給到大模型輸入的一段原始的輸入,能夠幫助模型更好地理解用戶的需求并按照特定的模式或規(guī)則進(jìn)行響應(yīng)。
對于prompt,比如可以設(shè)定“假設(shè)你是一位醫(yī)生,給出針對這種癥狀的建議”,然后你與大模型后續(xù)的對話中,都會按照這個(gè)原始設(shè)定來展開。
這里有個(gè)比較有意思的玩法,就是我們可以在prompt的設(shè)定中,要求模型按照一定的思路邏輯去回答。比如最近比較火的cot,也就是思維鏈,也是在prompt這個(gè)環(huán)節(jié),對于模型的輸出進(jìn)行指導(dǎo)。
這里的玩法很多,比如我們還可以讓模型按照特定格式的json輸出等,這樣模型真的就可以變成了一個(gè)輸出器來使用。
2. RAG
rag,也就是Retrieval-augmented-Generation,檢索增強(qiáng)技術(shù),應(yīng)該也是大家經(jīng)??吹降囊粋€(gè)名詞了。那么他到底是個(gè)什么東西呢?
首先我們先回顧llm的原理,其實(shí)就是把一堆互聯(lián)網(wǎng)文獻(xiàn)材料,降維到latentspace中,并通過transformer的方式用學(xué)習(xí)到了其中的“經(jīng)驗(yàn)”。但文獻(xiàn)資料是死的,如果僅通過固定的資料去回答問題,勢必會出現(xiàn)一些無法回答的問題。
那么rag的出現(xiàn)就解決了這個(gè)問題,rag允許模型可以到搜索引擎上去搜索問題相關(guān)的資料,并將獲取到的信息,綜合自己的知識體系內(nèi)容,綜合進(jìn)行回復(fù)。
當(dāng)然rag不全是這些,rag的r,也就是搜索,其實(shí)不是一件簡單的事情。所以這個(gè)環(huán)節(jié)還會有些傳統(tǒng)的搜索的邏輯在,比如對于輸入問題的糾錯(cuò),補(bǔ)充,拆分,以及對于搜索內(nèi)容的權(quán)重邏輯等等的事情。
打個(gè)比方,比如問中國界世杯奪冠那年的啤酒銷量如何,那就首先會做一次糾錯(cuò),把“界世”糾錯(cuò)為“世界”,然后把問題拆分為兩個(gè)問題,然后綜合去搜索,把搜索到的資料在給到大模型,讓其進(jìn)行總結(jié)性輸出
3. 大模型的涌現(xiàn)
這個(gè)可能有些同學(xué)不怎么聽過這個(gè)詞,但這個(gè)是大模型里,我認(rèn)為最核心的個(gè)概念。
因?yàn)槠鋵?shí)經(jīng)上面的原理講解,其實(shí)大家不難發(fā)現(xiàn),這與目前大模型所表現(xiàn)出來的,仍然對不上啊。為什么只是在計(jì)算相關(guān)性和概率,就能讓大模型表現(xiàn)出難以解釋的表達(dá)?所以這就是涌現(xiàn)…也就是科學(xué)家們認(rèn)為,當(dāng)訓(xùn)練的數(shù)據(jù)到了一定程度后,模型的能力會涌現(xiàn)出很多難以用邏輯去解釋的現(xiàn)象。
說實(shí)話在我看來,因?yàn)楸旧砟P偷膶W(xué)習(xí)就是在一個(gè)降維的latentspace中進(jìn)行的,那我們嘗試去用三維世界中的if-else去解釋其行為,似乎本身也不靠譜不是么。不過現(xiàn)在倒也有一些論文使用跟蹤標(biāo)注等的的方式來嘗試解釋大模型內(nèi)部的行為,這個(gè)看看就好了
4. AI Agent
agent算是從年前到現(xiàn)在,比較火的一個(gè)概念了,也被很多人認(rèn)為是大模型的未來的一個(gè)主要發(fā)展方向。
首先我們看這個(gè)很經(jīng)典的一張圖
看起來還是蠻復(fù)雜的,然后市面上的很多描述agent的文章寫的也比較復(fù)雜,說智能體是啥智能的最小單元,相較于copilot,是可以給他設(shè)定一個(gè)目標(biāo)后主動完成任務(wù)的等等。
當(dāng)然這些說法都沒錯(cuò),但是我覺得還是有些不好理解的。所以我們依然先從原理著手去理解下,agent是個(gè)什么東西。
首先這張圖里,中間的“智能體”,其實(shí)就是llm,或者說大模型。四個(gè)箭頭,分別是我們?yōu)閘lm增加的四個(gè)能力。工具、記憶、行動、規(guī)劃。那么這個(gè)是怎么新增的呢?
目前行業(yè)里主要用到的是一個(gè)叫l(wèi)angchain的框架,這個(gè)框架可以簡單理解為,他把llm和llm之間,以及l(fā)lm和工具之間,通過代碼或prompt的形式,進(jìn)行了串接。
這個(gè)其實(shí)也像是在rag的基礎(chǔ)上再進(jìn)了一步。因?yàn)槲覀冎纑ag其實(shí)是給了大模型一個(gè)瀏覽器工具來使用嘛,那agent,其實(shí)就是給了大模型更多的工具。比如像是長期記憶,其實(shí)就是給了大模型一個(gè)數(shù)據(jù)庫工具讓其往里記錄重要信息。規(guī)劃和行動,其實(shí)就是在大模型的prompt層做的些邏輯,比如讓其將目標(biāo)進(jìn)行每一步的拆解,拆解完成后,每一步去輸出不同的固定格式action指令,給到工具作為輸入。
當(dāng)然langchain或者說agent還不止這些,也會有很多其他的代碼邏輯體現(xiàn)在其中,不過其主要的主干邏輯,其實(shí)還是在prompt層和工具層,完成的設(shè)計(jì)。
說實(shí)話我對于Agent產(chǎn)品我還是比較看好的,當(dāng)然這不僅因?yàn)槲以?jīng)落地過實(shí)際的Agent產(chǎn)品,實(shí)在也是因?yàn)槲艺J(rèn)為這代表了我們可以在流程中給到大模型使用工具的能力,這其實(shí)就給了大模型應(yīng)用更廣闊的空間。比如我可以大模型幫我把差旅安排一下,大模型首先會判斷一下為完成該目標(biāo),拆解需要有哪幾個(gè)步驟要做(planning能力),然后搜索近期我oa工具中的差旅記錄(memory能力),然后在飛豬上幫我預(yù)訂酒店和機(jī)票(tools/action能力),最終完成任務(wù)。
五、聊聊市面上目前的ai產(chǎn)品
ok,如果上面這些大家已經(jīng)消化掉了的話,我們可以回過頭來盤一盤目前市面上出現(xiàn)的這些ai產(chǎn)品了。
1. To C領(lǐng)域
toc領(lǐng)域,目前看到比較成體系的主要有這幾類產(chǎn)品:
1)一類是主打ai角色扮演賽道的產(chǎn)品
例如“貓箱”“劇本戲”“名人朋友圈”這類
其實(shí)就是在llm基礎(chǔ)上,在prompt上加了些特定角色定義
2)一類是主打ai陪伴類的產(chǎn)品
例如“星野”“Talkie”“BubblePal”等為代表
這類產(chǎn)品其實(shí)也是在llm基礎(chǔ)上,在prompt上加了些特定角色定義。不過不一樣的是,這類產(chǎn)品往往會在長短記憶上做出些處理,以突出其陪伴意義。隨著陪伴的時(shí)間越久,知識庫沉淀的個(gè)性化記錄就越豐富,ai也會越懂你。老實(shí)說這類產(chǎn)品我覺得還是很有意義的。
3)一類是做ai搜索工具的產(chǎn)品
例如“秘塔”“360搜索”等
這類產(chǎn)品說白了就是上文提到的rag,沒啥別的。不過也有會在搜索內(nèi)容基礎(chǔ)上,把內(nèi)容結(jié)構(gòu)化,整出一個(gè)圖譜或者腦圖的,這個(gè)也還算有意思。
4)一類是單純的做aigc的產(chǎn)品
例如“可靈”“ai寫作手”“即夢”“md”等
這類產(chǎn)品其實(shí)就是借助ai的生成能力做出的產(chǎn)品
5)還有一類是agent產(chǎn)品
這個(gè)目前只有頭部的廠商在做,比如字節(jié)的扣子,支付寶的智能助理,百度的文心智能體,騰訊的元寶。
這類產(chǎn)品會提供一套ai開放平臺框架,允許三方在上面通過組裝llm和組件和自有的知識庫信息等,定義自己專屬垂域的agent。
這個(gè)其實(shí)很像之前的小程序,主打的是一個(gè)生態(tài)和分發(fā),做這個(gè)平臺的前提是,你得有完備且有吸引力的分發(fā)渠道才可以。不然哪有開發(fā)者愿意上你的平臺開發(fā)agent是不。
2. To B領(lǐng)域
在tob領(lǐng)域,目前看到比較成體系的主要有這幾類:
1)一類是智能辦公
這類產(chǎn)品價(jià)值點(diǎn)主要體現(xiàn)在辦公垂域場景中,比如辦公場景下,需要快速總結(jié)群聊內(nèi)容或會議信息,那就可以把群聊記錄丟給大模型,讓其總結(jié)出個(gè)一二三四出來?;蛘咝枰獙憘€(gè)公文但沒有思路時(shí),ai給出的結(jié)構(gòu)模板參考等。
2)一類是智能客服
這類產(chǎn)品通常借助agent來實(shí)現(xiàn),接入企業(yè)的QA知識庫,對用戶的信息予以回應(yīng)。并且依據(jù)用戶的回答,下達(dá)諸如取消訂單、催快遞之類的action指令。
3)一類是AI導(dǎo)購
這類產(chǎn)品主要在用戶和商家之間發(fā)揮作用。以往的商品搜索體驗(yàn),往往是商家猜測用戶會搜索的標(biāo)簽,用戶猜測商家設(shè)置的標(biāo)簽。然而運(yùn)用AI導(dǎo)購,能夠依據(jù)用戶的問題,結(jié)合產(chǎn)品的介紹和評論信息等,為用戶推薦更為準(zhǔn)確、精準(zhǔn)的產(chǎn)品。
比如,用戶期望購買一個(gè)能容納三個(gè)籃球的籃球背包。按照以往的流程,用戶需要先查詢能裝下三個(gè)籃球的背包所需的容量,然后再在平臺上搜索對應(yīng)容量的背包。而使用AI導(dǎo)購,就能夠?qū)⑦@一整個(gè)過程完全交由AI來處理。
4)一類是智能營銷
此類別主要應(yīng)用于營銷環(huán)節(jié),通過AIGC生成一些話術(shù)、物料、口播等內(nèi)容,有些還會融入用戶的個(gè)性化元素,以指導(dǎo)物料的生成。
5)一類是智能人力資源
目前,這類主要利用模型進(jìn)行一些諸如簡歷初篩、JD自動生成、數(shù)據(jù)分析等工作。
六、ai究竟帶來了什么
在深入了解了AI的運(yùn)作原理,并盤了眾多當(dāng)前市面上AI的落地產(chǎn)品之后,我們不妨重新回到最開始的問題。此次AI大模型究竟引發(fā)了怎樣的變革?
在思考這個(gè)問題之前,我想先分享下去年剛接觸大模型時(shí),困擾我的一個(gè)問題。即大模型與當(dāng)下的智能語音技能的NLU存在什么差異?此前,我也曾涉足過一些語音產(chǎn)品的設(shè)計(jì)邏輯,知道語音技能鏈路其實(shí)就是把聲音轉(zhuǎn)為ASR,再對文本進(jìn)行NLU理解,然后映射到對應(yīng)的語音技能表中,最后讓程序依據(jù)相應(yīng)的語音技能指令完成邏輯。乍看起來,大模型能實(shí)現(xiàn)的,通過語音技能似乎也能達(dá)成,那我們引入大模型的意義在哪里呢?
抱著這樣的疑問,我嘗試去理解了大模型的原理。當(dāng)我在初步理解大模型的原理之后,我發(fā)現(xiàn)二者還是存在本質(zhì)性的差別的。
差別在于,后者的語音技能NLU僅是通過一系列規(guī)則、分詞策略等訓(xùn)練而成的產(chǎn)物。而且NLU的運(yùn)作邏輯規(guī)律都是可觀測的,具有if-else式的邏輯性。而大模型,則是憑借海量的數(shù)據(jù),在向量空間中學(xué)習(xí)知識的關(guān)聯(lián)性從而形成的,其運(yùn)作邏輯難以觀測,已然脫離了if-else的層面。
所以,我們再度審視這個(gè)問題,此次的AI變革到底帶來了什么?
汪華老師在前不久的分享中,對于此次AI變革的量級提出了觀點(diǎn):他認(rèn)為這次AI的變革量級,100%能夠抵達(dá)第一個(gè)階段,即與移動互聯(lián)網(wǎng)處于同一級別;50%有可能發(fā)展至第二個(gè)階段,即與蒸汽機(jī)的出現(xiàn)同量級;至于能否到達(dá)第三個(gè)階段,即AGI,尚不明確。
在這一點(diǎn)上,我的看法與他一致。因?yàn)槲矣X得,AI此次帶來的變革,已然脫離了傳統(tǒng)互聯(lián)網(wǎng)基于if-else的最底層邏輯,這幾乎等同于重塑了互聯(lián)網(wǎng),這不就相當(dāng)于蒸汽機(jī)級別般的變革嗎?
七、我們該怎么去思考ai的發(fā)展和應(yīng)用
變革歸變革,那么作為產(chǎn)品人,我們該怎么去把a(bǔ)i這個(gè)能力用起來呢?
我認(rèn)為轉(zhuǎn)變自己的“傳統(tǒng)”產(chǎn)品設(shè)計(jì)思路和視角,是最關(guān)鍵的一步。
其實(shí)我前段時(shí)間我在一個(gè)僅面向產(chǎn)品經(jīng)理的公眾號中,讀到一篇對大模型發(fā)展未來表達(dá)看法的文章。文章的開篇,就表達(dá)了認(rèn)為大模型應(yīng)用是在內(nèi)容、電商、o2o、工具之外的第五條賽道,且當(dāng)前是否夠資格成為“第五條賽道”都有待商榷。在該文章的評論區(qū)下,我建議作者先去了解下大模型的基礎(chǔ)原理以及當(dāng)前的技術(shù)發(fā)展?fàn)顩r。
當(dāng)時(shí)之所以這樣說,只是因?yàn)槲矣X得許多產(chǎn)品同學(xué)實(shí)際上并未真正意識到這次大模型所帶來的變革,所以他們的思路和視角,依然停留在傳統(tǒng)互聯(lián)網(wǎng)商業(yè)模式上,仍然認(rèn)為此次的變革只是在傳統(tǒng)的基礎(chǔ)之上做更新。
但上面我們也說了,這次的ai變革是從互聯(lián)網(wǎng)最底層的if-else邏輯開始的,而那些傳統(tǒng)互聯(lián)網(wǎng)的商業(yè)模式,只是基于傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)架構(gòu)和用戶需求綜合出來的產(chǎn)物。
所以,我們在去思考ai的發(fā)展的時(shí)候,切記一定要去拋開當(dāng)前的業(yè)務(wù)體系和框架,從最本質(zhì)入手,從人最底層心智,和最底層的需求去著手,重新思考自己的產(chǎn)品邏輯,去重新設(shè)計(jì)商業(yè)邏輯體系和流程。否則你做出來的,只能是在現(xiàn)有業(yè)務(wù)體系下的雕花產(chǎn)物罷了。
最后,紙上得來終覺淺,絕知此事要躬行。建議感興趣的產(chǎn)品同學(xué),與其看千篇文章,不如實(shí)際地到coze或文心或混元平臺上,親手做幾個(gè)agent出來感受一下。相信在這個(gè)過程中,大家可以收獲到更多。祝愿大家都能在這次的AI浪潮中,找到屬于自己的方向。
本文由 @Ranger 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
通俗易懂