24年WAIC世界人工智能大會- AI應(yīng)用觀察
探索2024年WAIC展示的AI創(chuàng)新,從WPS的企業(yè)大腦到AI教育工具,這些toB解決方案展現(xiàn)了AI技術(shù)的潛力和行業(yè)對未來應(yīng)用的期待。快來了解這些前沿進展!
24年的WAIC在上海世博中心舉辦,7月4號到7號,共4天展覽的時間,我是在5號花了一天左右時間去參觀了一下,我比較感興趣是基于大模型的AI應(yīng)用,基本上大部分時間都在有眾多AI廠商的展廳逛,展廳內(nèi)參展商像華為、騰訊、阿里一線互聯(lián)網(wǎng)大廠包括頭部AI的科技公司商湯、科大訊飛、百川以及像特斯拉、蔚來等車企都參與了這次的活動。
在逛的過程中也和一些AI廠商的業(yè)務(wù)人員關(guān)于產(chǎn)品的使用場景背后用到的技術(shù)商業(yè)模式等聊了一些,這篇文章就把目前最前沿的部分有意思的AI應(yīng)用帶給大家。
先說結(jié)論:絕大部分AI廠商還都是依賴于自己研發(fā)的【小模型】來滿足所在領(lǐng)域的場景需求,【大模型】僅作為一個輔助的技術(shù);小部分廠商底層依賴【大模型】驅(qū)動做了一些產(chǎn)品,但還是要通過一些額外的輔助手段,例如小模型的加入來保證產(chǎn)品能夠商業(yè)化落地。
大模型還未大規(guī)模作為toB領(lǐng)域底層AI技術(shù)的原因我認為主要有兩個:一個是模型存在幻覺,所謂的幻覺是你在問模型一個問題時會有一定概率胡說八道,而toB的絕大部分場景容錯率都是很低的。其二是原有的依賴小模型產(chǎn)品有的已經(jīng)能夠商業(yè)化規(guī)模化,把原有的底層技術(shù)替換成本是大的。
這里說明下大模型和小模型區(qū)別:
- 小模型:指廠商自研或采購的針對某垂直場景的AI模型,例如TTS、NLP、ASR等。
- 大模型:生成式大語言模型,我們熟知的GPT、Gemini都屬于大模型。
舉辦展會是toB領(lǐng)域的一種會銷行為,參展商和舉辦商舉辦活動的目的不僅僅是行業(yè)的交流,核心還是能夠獲取一些客戶名單,銷售導(dǎo)向,所以展會上較少有toC的產(chǎn)品亮相,確切來講這篇文章所介紹的基本都是toB領(lǐng)域的當下最前沿的AI應(yīng)用了。
一、按產(chǎn)品為單位介紹AI產(chǎn)品
1、WPS AI – 企業(yè)大腦
金山辦公早在幾年前就推出了自己的AI文檔產(chǎn)品,作為終端用戶有些伙伴已經(jīng)體驗到了,這次WAIC大會,金山辦公展覽的AI辦公文檔應(yīng)用主要面向企業(yè),官方稱之為企業(yè)大腦,所謂的企業(yè)大腦,相當于將企業(yè)所有的關(guān)于產(chǎn)品、業(yè)務(wù)、運營等文檔內(nèi)容一并給到應(yīng)用,應(yīng)用通過底層大模型的能力實現(xiàn)企業(yè)員工知識問答。原本要找一個資料可能要問其他同事要或者在企業(yè)自己維護的企業(yè)網(wǎng)盤中尋找,找來之后還要在文檔中找到你需要的信息,效率是低的,而有了企業(yè)大腦,就可以直接通過文字交互的形式問應(yīng)用就可以了。
類似企業(yè)大腦、企業(yè)知識庫產(chǎn)品背后的模型有點像RAG(檢索增強生成),這里也簡單介紹一下此模型原理。
- RAG,即Retrieval-Augmented Generation,中文翻譯為”檢索增強生成”。這是一種結(jié)合了檢索和生成技術(shù)的模型,它通過引用外部知識庫的信息來生成答案或內(nèi)容,具有較強的可解釋性和定制能力;
- RAG模塊的工作原理可分兩部分組成,分別是檢索層部和生成層;
- 檢索層:將用戶輸入的檢索信息通過檢索層神經(jīng)網(wǎng)絡(luò)生成檢索需求給到數(shù)據(jù)庫,數(shù)據(jù)庫根據(jù)需求輸出檢索結(jié)果;
- 生成層:將檢索層輸出的數(shù)據(jù)結(jié)果結(jié)合用戶的檢索信息給到大語言模型(LLM)生成最終結(jié)果。
基于大模型知識庫產(chǎn)品會存在一個問題就是剛才所說的模型幻覺,模型的回答不是每次都準確的,可能會出現(xiàn)胡說八道的情況,WPS AI給了一個解決方案,就是每次在模型回答的內(nèi)容里面顯示原始文檔來源,如果模型引用了文檔那么內(nèi)容大概率是可信的,如果沒有引用自由發(fā)揮的,那就需要進一步確認他的準確度了;另外一個好處是員工可以點擊引用的文檔查看更詳細的信息,通常大模型回答的內(nèi)容比較精簡的。
這讓我想到了toC產(chǎn)品領(lǐng)域KIMI,也是通過給出引用的原始內(nèi)容的方式來進一步增加回答內(nèi)容的置信度和進一步查看內(nèi)容明細,KIMI背后的技術(shù)模型也是類似RAG。
WPS AI企業(yè)版的行業(yè)解決方案負責人提到了目前針對toB的實踐,面向金融保險領(lǐng)域,保險的產(chǎn)品種類是比較多的,保險內(nèi)的條款內(nèi)容變化也比較快,內(nèi)部員工和外部客戶都需要通過問答的形式來獲取最新的保險產(chǎn)品信息,原先的解決方式是人工去維護問答知識庫,這樣效率就比較低,而如果運用了基于大模型的AI數(shù)字員工,維護成本會降低。具體的實現(xiàn)路徑和效果在現(xiàn)場沒有展示,目前他們這個針對保險領(lǐng)域的這一行業(yè)場景實踐還在共創(chuàng)階段。
WPS AI其余的能力都還是圍繞大模型針對內(nèi)容領(lǐng)域的基礎(chǔ)能力:內(nèi)容擴寫、內(nèi)容格式化、內(nèi)容提取等。
2、海豚-AI解題助手
AI解決數(shù)學(xué)題的能力在剛發(fā)布的GPT-4o就可見一斑,展廳內(nèi)不止一家教育機構(gòu)圍繞底層大模型應(yīng)用提供教學(xué)產(chǎn)品,我主要和海豚教育的業(yè)務(wù)人員聊了一些并且體驗了他們的產(chǎn)品,他們的產(chǎn)品是面向?qū)W生群體的數(shù)學(xué)解題助手,一道數(shù)學(xué)題模型有能力將其拆分成若干的解題步驟,每個步驟是一個子問題,模型引導(dǎo)用戶回答子問題直到最終答案。
在整個體驗過程中AI給出的子問題和對我給的答案判斷及引導(dǎo)體驗下來沒什么問題,只是在識別我的回答時出現(xiàn)一次將“兩天”識別成“2000”的錯誤,我和機器間的交互有4次,如果單從這一次的樣本來看,語音的識別成功率在百分之75。
針對他們家的產(chǎn)品,我也同樣問到了模型幻覺的問題,像拆題和解題包括和用戶的交互過程中模型出現(xiàn)幻覺怎么處理,概率大概多少?現(xiàn)場的工作人員給我的答復(fù)是概率大致在百分之98,問題出現(xiàn)需要人工來干預(yù),且不談這個概率的可靠性,就教育場景來說,哪怕百分之2的錯誤率意味著每一道題都要經(jīng)過人工確認才行。
所以他們這個產(chǎn)品還是需要家長或老師的陪同下才好進行,或許這個產(chǎn)品的目標群體可以是家長,告訴家長解題步驟,家長掌握后再給孩子做輔導(dǎo)。
3、獵聘多面- AI面試官
大會來了一些做招聘試這塊兒業(yè)務(wù)的公司,我們平常在找公司的時候經(jīng)常用像BOSS、智聯(lián)招聘這種產(chǎn)品,看上去都是面向toC的,實則這些招聘軟件公司同樣有很多toB業(yè)務(wù)且toB業(yè)務(wù)才是他們最主要的營收來源。
獵聘估計大家沒用過但也有所聞,他們在大會上展示的AI能力簡單用一個詞來概括就是- AI面試官,解決的核心問題是幫助企業(yè)提升面試效率確切來說是首輪面試效率,從面試者的視角來看,簡歷通過初篩后,會進入到AI面試環(huán)節(jié),面試者將面對AI數(shù)字人進行面試,而AI數(shù)字人所問的面試題是根據(jù)崗位的JD,也就是說企業(yè)端只要給系統(tǒng)一份崗位JD,系統(tǒng)就可以生成面試題目。最終的企業(yè)根據(jù)AI的打分結(jié)合回答來判斷哪些候選人能進入到下一輪面試環(huán)節(jié)。
系統(tǒng)由大模型和小模型組成,大模型負責生成面試題且和面試者面試過程中的交互內(nèi)容,小模型主要是指打分,獵聘通過他們私有的數(shù)據(jù)來訓(xùn)練小模型的評分系統(tǒng)。當然因為是數(shù)字人形式呈現(xiàn),那大概率也會用到一些像ASR文字轉(zhuǎn)語音,TTS語音轉(zhuǎn)文字的小模型。
期間我問現(xiàn)場的工作人員,如果從降低企業(yè)面試成本的角度來說成立,但作為一個面試者,公司第一輪使用AI的方式進行面試,可能會讓他們感覺企業(yè)不夠重視自己,對企業(yè)的好感度的降低。他們給我的解答是,目前AI面試官還未普及的情況下有這種可能,但假如后面普及下來,絕大部分公司都采用這種方式那就不存在這個問題了。這就讓我想到了如今的新能源汽車產(chǎn)業(yè),電車被廣大消費者接受不僅僅靠的是一家車企的努力,還需要整個產(chǎn)業(yè)中每個公司的貢獻,比如供應(yīng)鏈、充電樁等。之前蔚來汽車的老板李斌也說過蔚來和其他國產(chǎn)的新能源車企既是競爭對手也是合作者。
目前他們這個產(chǎn)品的售價按照面試次數(shù),一個面試單價在20元,如果按照初輪面試有20個候選人,首輪面試的成本在400元左右,大家如果熟悉招聘行業(yè)的,可以算一下如果企業(yè)用這套系統(tǒng),不從效果單從成本上是否能覆蓋首輪人工面試的方式。
4、AI機器人
大會各廠商展示的AI機器人總體分兩類,一類是解決某垂直場景的機器設(shè)備,有的設(shè)備也有人的屬性,比如用來裝載貨物的機械臂等,另外一類就是長的像人類并且大多都帶兩條腿的人型機器人,像特斯拉的Optimus。
我和其中的一家叫達闥機器人的工作人員聊了聊,他們做的也是類似于人型機器人,大廳大屏上展示的場景是機器人在咖啡廳拿咖啡杯移動,估計是想呈現(xiàn)出機器人在咖啡店餐廳這種環(huán)境下的服務(wù)能力,但和現(xiàn)場員工聊了之后發(fā)現(xiàn)這也只是個概念,還無法商業(yè)化落地,目前能落地的場景在景區(qū)導(dǎo)覽這塊兒,機器人相當于充當一個導(dǎo)覽人員的角色。
實現(xiàn)方式是通過先將展館或周邊環(huán)境進行3D建模,再將建模等數(shù)據(jù)給到機器人進行訓(xùn)練,機器人也結(jié)合了大語言模型的能力,只是在面對一些非特定任務(wù)場景的問題時可調(diào)用大模型進行回復(fù)。
這種方式實現(xiàn)意味著每開發(fā)一個新的客戶,都需要有數(shù)據(jù)采集和預(yù)訓(xùn)練的環(huán)節(jié)。
大致詢問了一下機器人的售價 ,現(xiàn)場人員給我了一個很泛的數(shù)字:十幾萬。一個三線城市景區(qū)的導(dǎo)覽人員年人力成本在10萬,如果整個機器能撐兩年,意味著成本能降下來。
除了人型機器人以外,還有一些垂直場景的AI機器設(shè)備涉及像機器自動做咖啡、機器自動做冰激凌等工業(yè)化設(shè)備。
感覺機器人整個產(chǎn)業(yè)已經(jīng)比較豐富了,因為我看到除了機器人產(chǎn)品之外還有像一些機器人組件的供應(yīng)商,比如提供關(guān)節(jié)模組這種解決方案的廠商。
二、其他AI產(chǎn)品觀察
除了以上所述的幾個AI相關(guān)的產(chǎn)品服務(wù)之外,現(xiàn)場還有很多,部分沒來的及仔細研究,初淺的了解下,這里也介紹一些。
1、華為的大模型-盤古
華為的盤古大模型除了像GPT-4這種通用模型外還提供了更聚焦的行業(yè)大模型和場景大模型,問了現(xiàn)場的工作人員這種更聚焦的大模型和通用大模型的差別僅在數(shù)據(jù),一般來說要解決垂直行業(yè)或場景問題,哪怕僅是一個簡單的知識庫也是需要企業(yè)內(nèi)部數(shù)據(jù)支持的,僅憑大模型是不行的。
2、自動駕駛
有面向民用的,例如蔚來汽車、特斯拉、極越,也有針對場景的toB端的解決方案,例如無人礦車,針對物流場景的無人駕駛等。
3、AI體檢
通常我們要是想要得知自己身體的各項指標需要去醫(yī)院抽血,更細致的要拍片等,在大會現(xiàn)場看到可以通過識別人臉就能給出部分身體指標數(shù)據(jù)的AI體檢產(chǎn)品,例如血糖,血脂等,我沒去體驗,因為我不知道我實際的身體指標是多少,無從判斷它的準確度,萬一要是測出來有哪項指標不合格就挺糟心的。該產(chǎn)品背后的原理不難理解,就是一個通過人臉和對應(yīng)指標數(shù)據(jù)訓(xùn)練出來的一個模型。
4、AI海外服務(wù)
通過AI的方式把面向國內(nèi)的一些內(nèi)容,針對不同海外消費市場的特性轉(zhuǎn)換成面向海外的內(nèi)容。
5、AI Coder
基于大模型提升code效率, 例如具備自動Debug、AI輸出一些代碼片段等能力。
三、結(jié)語:
大會來了不少互聯(lián)網(wǎng)領(lǐng)域的大咖,例如像百度的李彥宏、獵豹移動的傅盛,阿里云的王堅,李彥宏在會上也很尖銳的指出,今天各大廠商都在卷模型的性能,是一種資源的浪費,而真正能夠解決實際問題的AI應(yīng)用才是更有價值的。
可以看出整個AI產(chǎn)業(yè)界都在探索和期待現(xiàn)象級的AI應(yīng)用的誕生,而從歷史來看每一次大的技術(shù)革新都會孕育出超大規(guī)模公司。
本文由 @產(chǎn)品蕭書 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!