AI入門(mén)第一課:把模型跑起來(lái)
AI大模型發(fā)展到現(xiàn)在,國(guó)內(nèi)外都有在線(xiàn)和離線(xiàn)版本,那如何在自己本地部署大模型呢?本文分享了一種簡(jiǎn)單的辦法,一起來(lái)看看吧。
我們經(jīng)常能看到某某公司開(kāi)源了一款A(yù)I大模型的新聞。這些模型都有著超強(qiáng)的能力,從生成大段的文字、逼真的圖像,到理解和翻譯不同語(yǔ)言,再到創(chuàng)造出令人嘆為觀(guān)止的音樂(lè)和藝術(shù)作品。
對(duì)于我們普通人來(lái)說(shuō),這些高科技聽(tīng)起來(lái)不僅遙不可及,而且似乎與我們的日常生活無(wú)關(guān),他們像是只有那些天才和大神們才能操作和使用的。
但是這些強(qiáng)大的AI模型,并不止是大神們才能接觸和使用,實(shí)際上,這些模型的使用門(mén)檻其實(shí)不高。任何對(duì)AI感興趣的人都可以輕松獲取和使用這些模型,就像搭樂(lè)高積木一樣,將它們組合起來(lái),創(chuàng)造出你心目中的應(yīng)用。
這一切既不需要深厚的技術(shù)背景,也不需要復(fù)雜的編程技能。只要你有想法和一丟丟的學(xué)習(xí),這些強(qiáng)大的模型就能成為你隨意操作的「樂(lè)高」,搭建出你設(shè)想的樣子。
下面我們一起來(lái)看下,如何把模型跑起來(lái)~
第一步:找到一個(gè)模型
首先,第一步我們得知道去哪里找到這些模型,很簡(jiǎn)單,有一個(gè)神奇的網(wǎng)站叫:Hugging Face(https://huggingface.co/),這個(gè)網(wǎng)站本質(zhì)就是一個(gè)大模型的托管網(wǎng)站,目前這個(gè)網(wǎng)站托管的AI模型超過(guò)57萬(wàn)。一些熱門(mén)的模型,比如meta的Llama系列模型,google的Gemini等都托管在這個(gè)網(wǎng)站上,任何人都可以訪(fǎng)問(wèn)并使用它們。
假設(shè),我們現(xiàn)在要找一個(gè)模型,可以實(shí)現(xiàn)讀圖的功能,就是給它一張圖片,它可以告訴我這個(gè)圖片里的主要內(nèi)容是什么。這個(gè)模型的邏輯如下圖,非常簡(jiǎn)單,輸入一張圖片,輸出一段圖片的文本描述。
這個(gè)模型本質(zhì)上就是一個(gè)圖片到文本的模型,我們?cè)贖ugging Face里選擇Image-to-Text的分類(lèi),然后從得到的結(jié)果里看排名第一個(gè)的模型,就是下圖紅框圈選的:Salesforce/blip-image-captioning-large,這個(gè)就是模型的名字。
點(diǎn)擊模型進(jìn)行模型的詳情頁(yè),這里有模型的詳細(xì)原理介紹,以及在線(xiàn)試用的功能,可以在這里直接體驗(yàn)?zāi)P偷男Ч?/p>
找到了模型之后,我們接下來(lái)第二步,如何部署和使用模型。
第二步:模型的部署和使用
模型的使用涉及到模型的加載、預(yù)處理、模型推理和后處理步驟等,聽(tīng)起來(lái)似乎很復(fù)雜,但是不用擔(dān)心,Hugging Face還給我們提供了一套使用的工具,那就是Transformers庫(kù)中的pipeline方法,pipeline 將前面提到的模型使用所有步驟封裝成一個(gè)簡(jiǎn)單的函數(shù)調(diào)用。我們只需要使用這個(gè)函數(shù)方法,指定需要完成的任務(wù)類(lèi)型,當(dāng)然我們也可以指定特定的模型和配置來(lái)定制使用。Transformers庫(kù)是由Hugging Face公司開(kāi)發(fā)的一個(gè)開(kāi)源Python庫(kù),里面除了pipeline外,還有很多其它的方法和工具,這里就不細(xì)說(shuō)了。
具體的使用其實(shí)就是幾行Python代碼就可以搞定,非常簡(jiǎn)單。這里額外說(shuō)下,我們經(jīng)常在使用寫(xiě)python的時(shí)候,需要安裝編譯器和配置環(huán)境,往往這些環(huán)境配置就已經(jīng)消耗了我們的所有激情了。這里,感謝google大大提供的一個(gè)在線(xiàn)編程工具colab,直接解決所有安裝和環(huán)境問(wèn)題。
Colaboratory界面如下,就是一個(gè)可以在線(xiàn)寫(xiě)python代碼的「筆記本」。
我們新建一個(gè)文件,然后輸入第一行代碼:
pip install transformers
就這樣一行代碼,Transformers庫(kù)就安裝好了。后面具體的操作,點(diǎn)擊上傳圖片。
隨后編寫(xiě)的代碼和解釋如下,懂一點(diǎn)點(diǎn)python和編程的人,應(yīng)該就能寫(xiě)出來(lái)。寫(xiě)完后點(diǎn)擊代碼側(cè)邊的運(yùn)行按鈕即可。
輸出的文案是:arafed woman sitting on the ground with a camera and a tripod. (一位戴著頭巾的女性坐在地上,旁邊放著相機(jī)和三腳架。)基本識(shí)別出來(lái)圖片中的主要內(nèi)容。
到此,我們的第一個(gè)模型的選擇和使用的demo就完成了。
這段代碼的地址如下:
https://colab.research.google.com/drive/1NWTircHzljiU2MNCKjA9PpyGJCMcpqmc?usp=sharing
三、最后
如果我們有更復(fù)雜的想法,比如我們可以用得到的圖片描述,再用LLM模型,幫助編寫(xiě)一個(gè)故事腳本,再通過(guò)一個(gè)文生視頻模型,變成圖片或者視頻,具體的流程如下圖所示。
這些都是可以用一個(gè)一個(gè)模型拼接出來(lái)的。至于如何拼接,后續(xù)的文章中會(huì)繼續(xù)介紹。
因此,在AI時(shí)代來(lái)臨之際,如果你是一個(gè)有想法的產(chǎn)品,那么可以自己通過(guò)這些多種多樣的模型實(shí)現(xiàn)自己的想法。分享一個(gè)我看到的有意思的模型實(shí)踐,利用codeformer模型,去除圖片的馬賽克,大家可以去huggingface上體驗(yàn)下,https://huggingface.co/spaces/sczhou/CodeFormer
突然感覺(jué)這個(gè)應(yīng)用可能蠻有前景!你覺(jué)得呢?哈哈哈。我也是AI入門(mén)學(xué)習(xí)者,對(duì)于模型的使用還有很多其它的平臺(tái)和方法,我也在摸索中,歡迎大家交流討論~
專(zhuān)欄作家
南村小付,微信公眾號(hào):南村小付,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家??焓指呒?jí)產(chǎn)品經(jīng)理,曾任職阿里,歡聚時(shí)代,7年互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)運(yùn)營(yíng)經(jīng)驗(yàn)。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!