多模態(tài)人機(jī)交互中的大模型學(xué)習(xí)系統(tǒng)與應(yīng)用
人工智能對(duì)于我們的影響越來越廣泛,本文就多模態(tài)人工智能的興起對(duì)智能產(chǎn)品的影響以及未來需要具備的跨界能力進(jìn)行分析,一起來看看。
今天是匯聚 IOT 的時(shí)代,在物理世界機(jī)器傳感、互聯(lián)的情況下,如何設(shè)計(jì)新的智能產(chǎn)品,如何更好的提升用戶體驗(yàn),是各行各業(yè)一個(gè)非常重要的話題。
“如何實(shí)現(xiàn)性能驅(qū)動(dòng)的高附加值制造?” 是2022年高端制造前沿的十大科學(xué)問題之一。這一問題和 User Experience非常相關(guān)。例如蘋果公司,它的制造技術(shù)包給了富士康,現(xiàn)在富士康的鄭州工廠有30、40萬的工人每天在做制造的部分。但 iPhone的價(jià)值,不在于制造的技術(shù),而是在它的用戶體驗(yàn),是用戶體驗(yàn)造就了蘋果的成功。
從這個(gè)角度來講,如何讓中國制造從簡(jiǎn)單的加工完成一些技術(shù)指標(biāo)到功能再到如何實(shí)現(xiàn)用戶體驗(yàn)的最大化,這些問題不僅對(duì)用戶體驗(yàn)部門,而且對(duì)中國的整個(gè)高端制造全生命周期都有著重大的意義。
在應(yīng)用的領(lǐng)域方面,未來真正的人工智能和機(jī)器人已經(jīng)從工廠延伸到社會(huì)的各個(gè)角落,從制造到未來交通出行、醫(yī)療應(yīng)用、農(nóng)業(yè)應(yīng)用、家庭應(yīng)用、教育應(yīng)用。
如何把 User Experience作為一個(gè)交叉學(xué)科貫穿到各行各業(yè),是一個(gè)特別值得深入討論的問題。未來的人類社會(huì)生態(tài)的新平衡,需要深度融合人工智能大數(shù)據(jù)、VR/AR、機(jī)器人、可穿戴設(shè)備、5G通訊、User Experience、能源、新的材料等。
在中德的跨模態(tài)學(xué)習(xí)的項(xiàng)目中,我們每天在做的都是元宇宙的一些技術(shù),今天把多模態(tài)的元宇宙作為 User Experience的重要概念,還是值得一提的。
一、多模態(tài)人工智能的興起對(duì)智能產(chǎn)品的影響
當(dāng)下的人工智能不僅和工科方面相關(guān),而且和人文學(xué)科交叉,包括認(rèn)知學(xué)科、心理學(xué)科、生物學(xué)科、語言學(xué)、腦科學(xué),甚至和藝術(shù)與設(shè)計(jì)的融合也變得越來越深入,越來越有價(jià)值。在另外一個(gè)信息空間里,除了現(xiàn)有的掌上手機(jī)、可穿戴設(shè)備等,可以融入更多智能方面的產(chǎn)品、模塊、大模型的認(rèn)知甚至到意識(shí)等,使得未來在交互方面,不只是 Audio Video的信息的交互,而且有物理的交互。
具身智能(Embodied Intelligence),是現(xiàn)在國內(nèi)一個(gè)特別火爆的課題,實(shí)際上這個(gè)行業(yè)已經(jīng)提出了有20年之久。未來從信息的交互到物理的Embody的交互是一個(gè)重要的方向。如何理解人類的心智和大腦的多傳感過程,這是參考未來的多模態(tài)設(shè)計(jì)非常重要的一個(gè)方向。未來的整個(gè)多模態(tài)的界面,除了視覺,聽覺和觸覺之外,還會(huì)有更多的高層,包括 BCI,腦機(jī)接口,手勢(shì),感情,甚至物理動(dòng)作等。這些都是未來設(shè)計(jì)和用戶體驗(yàn)的重要話題。
我的博士生菲利普做了一款可以伸拉的、柔性強(qiáng)的觸覺皮膚,可以戴在手上且不影響正常操作,可以量化觸覺的信息。對(duì)于未來的 User Experience的量化也是一個(gè)重要的工具。
1. 人工智能的數(shù)據(jù)
因?yàn)槟柖?,?jì)算機(jī)整個(gè)在硬件和算力方面的增長,遵循了一個(gè)指數(shù)規(guī)律。從數(shù)據(jù)的存儲(chǔ)方面幾乎是一個(gè)摩爾定律的增長。以前一臺(tái)計(jì)算機(jī)從幾十K到今天幾十T,可以把收集來的任何 Audio Visual、還有多模態(tài)的數(shù)據(jù)都能整合起來,能夠自動(dòng)分類,甚至到自動(dòng)決策,使得我們?cè)诖笥?jì)算的計(jì)算引擎方面有了足夠多的燃料,在智能制造和數(shù)據(jù)信息處理方面有著日新月異的發(fā)展。
2. 算法方面
智能技術(shù)使得現(xiàn)在人類的語言和它的信號(hào)聽覺處理方面有了一定的進(jìn)展,現(xiàn)在的大模型是做一些行為 Level,能夠模擬人的語言功能的一部分,但是未來真正要實(shí)現(xiàn)的人腦的多模態(tài)功能,實(shí)際上要把聽覺、視覺,還有物理的控制都要整合在一起,這也是現(xiàn)在跨模態(tài)學(xué)習(xí)的一個(gè)機(jī)制,也是多模態(tài)系統(tǒng)的一個(gè)重要的具身智能的研究點(diǎn)。這種基于經(jīng)驗(yàn)的學(xué)習(xí),包括機(jī)器人和人在不斷地交互之間如何能夠?qū)W到高層的知識(shí),是未來用戶體驗(yàn)量化的一個(gè)很好的例子。
3. 例證
我們和歐盟有個(gè)項(xiàng)目。通過人和機(jī)器的學(xué)習(xí),讓機(jī)器人學(xué)到了八種知識(shí),包括空間模型、語言模型、動(dòng)作模型、對(duì)時(shí)空的理解,如先上盤子,咖啡要在熱的時(shí)候上,放在客戶的哪一個(gè)位置等等。未來的智能設(shè)備,它不只是一個(gè)簡(jiǎn)單的、被動(dòng)的設(shè)備,而是有具體的認(rèn)知模型,這叫 Finest Idea Model,即智能系統(tǒng)跟真正世界的模型的誤差,應(yīng)該通過學(xué)習(xí)降得越來越小。
現(xiàn)在的大模型,包括它如何擺脫計(jì)算成本,尤其是能夠在具身智能里面進(jìn)行應(yīng)用,都將面臨著巨大挑戰(zhàn)。我們最近也發(fā)了一篇 Robot GPT,如何使用GPT,使得它的交互變得更便利,能夠自動(dòng)產(chǎn)生出各種各樣的制造的成本。
還有我們現(xiàn)在的 ChatGPT for Industry,通過公司可以用自然語言跟工業(yè)的數(shù)據(jù)進(jìn)行 Chat,來找出你當(dāng)天不良率的原因是什么,這些對(duì)未來的制造和用戶界面有著非常的重要的一個(gè)引導(dǎo)意義。
二、未來:具有更多跨界的能力
如何讓新一代的人工智能里的語言和可解釋性能夠?qū)崿F(xiàn),讓更多的深度的人機(jī)交互的場(chǎng)景能夠?qū)崿F(xiàn),這些都給用戶體驗(yàn)交互設(shè)計(jì)提出了一個(gè)非常高的要求,這也是我們和用戶體驗(yàn)和設(shè)計(jì)界能夠合作的點(diǎn)。很多人說,現(xiàn)在二維設(shè)計(jì)已經(jīng)是前 ChatGPT的天下了,我想對(duì)這些年輕人講,未來你們的設(shè)計(jì)要增加自己的模態(tài),包括觸覺與質(zhì)感的模態(tài)。
你們要懂算法,知道人工智能能干什么,不能干什么。另外要學(xué)會(huì)怎么使用GPT,而不是拒絕 ChatGPT,要發(fā)揮你們更大的想象力并且具有更多跨界的能力。
不能只學(xué)設(shè)計(jì),要理解整個(gè)人類的更深層的需求。這不管是在未來的設(shè)計(jì)教育,還是用戶體驗(yàn)的研發(fā)方面,都具有非常重要的意義,這也是我們要跨界合作的最重要的一點(diǎn)。
作者:張建偉
來源公眾號(hào):用戶體驗(yàn)大學(xué)堂,專注用戶研究和用戶體驗(yàn)設(shè)計(jì)。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @用戶體驗(yàn)大學(xué)堂 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!