從人機(jī)交互角度聊聊ChatGPT-4o
這幾天AI圈子像是過節(jié)一樣,顯示周一晚上OpenAI的發(fā)布會,發(fā)布的產(chǎn)品和之前的消息相差不多;然后又是昨晚上Google IO大會,也發(fā)布了新的大模型產(chǎn)品。這篇文章,我們把焦點(diǎn)放在GPT-4o上。
GPT-4o本次共更新了7項(xiàng)內(nèi)容,作者選擇了4個要點(diǎn),從人機(jī)交互的角度和我們分析,看看和大家的理解有那些不一樣。
前天半夜ChatGPT-4o的發(fā)布會應(yīng)該未來幾天AI圈子最有熱度的話題了,其中幾條更新其實(shí)可以從人機(jī)交互的角度解讀一下。
首先我們還是先來看看GPT-4o更新的主要內(nèi)容(只關(guān)注交互角度解讀可跳過):
- 多模態(tài)交互能力:ChatGPT 4.0支持圖像和文本輸入,并能輸出文本,具備多模態(tài)交互的能力。這意味著它可以理解圖像內(nèi)容,并生成字幕、分類和分析等操作。
- 自然語言理解能力提升:在自然語言理解方面有顯著提升,這使得ChatGPT 4.0能夠更好地理解用戶的輸入,并根據(jù)用戶的語境提供更準(zhǔn)確的回答。
- 上下文長度增加:ChatGPT 4.0的上下文長度得到增加,這使得模型在處理長篇對話時表現(xiàn)更佳,能更好地理解整個對話的背景和上下文,從而給出更準(zhǔn)確和恰當(dāng)?shù)幕卮稹?/li>
- 數(shù)據(jù)分析及可視化作圖功能:通過直接打通相關(guān)功能模塊,ChatGPT 4.0能夠利用自然語言交互,根據(jù)知識庫、在線檢索到的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析及可視化作圖。
- DALL·E 3.0功能:ChatGPT 4.0引入了DALL·E 3.0功能,允許用戶上傳圖片并在其上進(jìn)行查詢,可以直接從必應(yīng)瀏覽,并直接使用ChatGPT中的DALL·E 3.0功能,在圖片上進(jìn)行創(chuàng)作。
- 模型架構(gòu)和訓(xùn)練數(shù)據(jù)的進(jìn)步:開發(fā)者在這個版本中引入了更先進(jìn)的模型架構(gòu)、更多的訓(xùn)練數(shù)據(jù)和更多的語言數(shù)據(jù),將聊天機(jī)器人的性能提升到了一個新的高度。
- API開放和價格優(yōu)惠:新版本GPT-4 Turbo支持128k上下文,知識截止更新到2023年4月,視覺能力、DALL·E3,文字轉(zhuǎn)語音TTS等功能全都對API開放,同時API價格還打了3-5折。
這其中的第1、2、3、5點(diǎn)都可以從人機(jī)交互的角度聊一聊。
第1點(diǎn):多模態(tài)交互能力
今天作者也看了一些寫GPT-4o更新的文章,有些人僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實(shí)在太小看多模態(tài)交互能力了。
要知道,人類通過文字表達(dá)和聲音表達(dá),即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息,而聲音包含更多維度的信息。例如語音、語調(diào)、音量、語速、停頓、重音等等。
同樣是【你好】,文字只能表達(dá)1種含義,而聲音可能能表達(dá)4-6種。對于程序來說,多模態(tài)交互意味著從更多來源獲得信息(指視、聽、文、環(huán)境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調(diào)、音量、語速、停頓、重音)。
從多來源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過程,更快速的給與用戶回復(fù)。這就像是用戶自動的把提問描述的更詳細(xì)了,把自己的要求說的更清楚了,如此一來GPT給與反饋的速度和質(zhì)量自然會有對應(yīng)的提升。(當(dāng)然同樣也有模型方面帶來的提升)
除了聲音之外,GPT-4o的多模態(tài)交互能力還包括視覺理解能力,例如能識別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。
以上是多模態(tài)交互能力中,人向GPT輸入過程中的意義,那么對于人機(jī)交互的另一部分:GPT向人輸出的階段,同樣意義非凡。
GPT-4o可以根據(jù)需要以最合適的模態(tài)進(jìn)行回應(yīng),在之前GPT只能以文字進(jìn)行回復(fù),但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了吧,無論是取代了命令行界面的圖形化界面,還是你晉升答辯時準(zhǔn)備的PPT,都能體現(xiàn)圖像相對于文字的優(yōu)勢。
第2點(diǎn):自然語言理解能力提升
如果說多模態(tài)交互能力代表了輸入和輸出這兩個階段。那自然語言理解能力就代表了【處理】這個階段。當(dāng)GPT從多來源獲得信息后,下一步就是理解這些信息,理解過后才能給出回復(fù)信息。自然語言理解能力的提升意味著GPT-4o對用戶意圖的識別更加準(zhǔn)確了。那么自然后續(xù)回復(fù)的內(nèi)容、回復(fù)的模態(tài)都會有更高質(zhì)量的結(jié)果。
第3點(diǎn):上下文長度增加
這一點(diǎn)的意義首先體現(xiàn)在長篇對話上,我們可以類比人與人之間的交流方式,兩個相識了多年的朋友,可能他們一句很短的對話就可以包含非常大的信息量,例如:
張三對李四說:你上回那個設(shè)計(jì)方案真是太牛了!
這句話本身沒提及但張三和李四都能理解的信息可能有:
- 設(shè)計(jì)方案的具體內(nèi)容
- 設(shè)計(jì)方案的效果
- 時間點(diǎn)(上回)
如果想清晰的表達(dá)以上的1、2、3包含的具體信息,可能需要上千字或十分鐘的對話才能說清楚,但由于這些信息都已經(jīng)被儲存在人的記憶中,兩人在交流的過程中就可以省略很多詳細(xì)的描述和前置條件,用一句話表達(dá)大量信息。
對于GPT-4o而言,可記憶的上下文長度增加就意味著他變成了一個對你更熟悉的程序,所以當(dāng)用戶與GPT-4o交流時,就可以像張三和李四交流那樣使用更少的信息交流更多的信息,同時能夠保障交流質(zhì)量。
要注意的是,剛剛我使用了對你更熟悉的程序這樣的描述,而不是對你更熟悉的朋友這樣的描述,這里面關(guān)鍵的區(qū)別有兩方面,第一方面是所謂的上下文長度,可以類比人與人相識的時間和交流的信息總量、了解程度。第二方面是
我們可以暢想一下,如果現(xiàn)在的新生代兒童從很小的年齡就開始使用AI工具,并且AI工具附著在便攜式智能設(shè)備上,以多模態(tài)與用戶同時感知周圍環(huán)境,再加之GPT-4o的可貫穿數(shù)十年的可記憶上下文長度。這樣的AI可能會成為用戶最熟悉的朋友,甚至遠(yuǎn)超父母、家人。如果再給與這個AI相應(yīng)的硬件,那幾乎可視為智械族了~
第5點(diǎn):DALL·E 3.0功能
文生圖能力以及對圖片的智能編輯能力已經(jīng)是很多其他產(chǎn)品早已具備的了,不過GPT-4o這次更新幫助用戶節(jié)省了之前都是由用戶操作的不同數(shù)據(jù)類型轉(zhuǎn)化的操作,改為由GPT-4o代替,對用戶來說 同樣是操作效率的提升。就像我們之前如果在某張圖片上看到了一個新概念,那可能需要用打字或ocr的方式將圖片轉(zhuǎn)化成文字再繼續(xù)使用。而GPT-4o以后將為用戶省掉這個過程。
其他的像創(chuàng)意工作、廣告制作、產(chǎn)品設(shè)計(jì)、教育演示等方面的意義就不再多說,市面上已經(jīng)有很多類似的產(chǎn)品了。
在整個發(fā)布會之中,還有一個令用戶們wow的點(diǎn)是GPT-4o的響應(yīng)時間僅為232毫秒(平均320毫秒),幾乎達(dá)到了與人類實(shí)時對話的水平,顯著優(yōu)于前代模型的延遲表現(xiàn)。
其實(shí)我們可以從以上的解讀中思考一下,為什么GPT-4o的響應(yīng)時間得到了如此大的提升?
- 第1點(diǎn):意味著GPT-4o獲取信息的速度更快了,信息量更多了。
- 第2點(diǎn):意味著GPT-4o理解這些信息更快了
- 第3點(diǎn):意味著GPT能從上下文獲得更多用戶沒有直接表達(dá)的信息
綜合以上3點(diǎn)提示再加上本身模型能力的提升,GPT-4o的響應(yīng)時間達(dá)到232毫秒也就容易理解了。
當(dāng)GPT-4o的響應(yīng)時間達(dá)到了人類與人類對話的水平時,很多應(yīng)用場景的想象空間就更大了。具體作者想到了如下幾方面:
- 實(shí)時交互性增強(qiáng):這樣的響應(yīng)速度使得人機(jī)對話接近無縫對接,幾乎消除了傳統(tǒng)人工智能助手在處理請求和提供回復(fù)之間的感知延遲。用戶在與GPT-4o交流時,會感覺像是在與另一個真實(shí)人類進(jìn)行自然流暢的對話,可以大大提升了交互的真實(shí)感和滿意度。
- 用戶體驗(yàn)優(yōu)化:更快的響應(yīng)時間減少了用戶等待反饋的心理負(fù)擔(dān),使得交流過程更加舒適和高效。這對于需要快速反饋的場景尤為重要,比如緊急情況下的信息查詢、即時決策支持或者快節(jié)奏的商業(yè)溝通。并且更加與人與人的交流相似了,想象一下我們在和朋友聊天的時候,一般不會等個3秒再說話吧?
- 應(yīng)用場景拓展:由于能夠?qū)崟r處理音頻、視覺和文本信息,GPT-4o打開了通往更多應(yīng)用場景的大門。例如,在客戶服務(wù)、教育輔導(dǎo)、遠(yuǎn)程醫(yī)療、虛擬助理、游戲交互等領(lǐng)域,實(shí)時交互能力都是提升服務(wù)質(zhì)量和效率的關(guān)鍵。
專欄作家
杜昭,微信公眾號:AI與用戶體驗(yàn),人人都是產(chǎn)品經(jīng)理專欄作者,實(shí)戰(zhàn)派設(shè)計(jì)師,目前在某手機(jī)公司負(fù)責(zé)手機(jī)OS交互設(shè)計(jì),所負(fù)責(zé)產(chǎn)品覆蓋用戶數(shù)億,主要研究AI與人機(jī)交互設(shè)計(jì)的融合及人因?qū)W對用戶體驗(yàn)的影響。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!