視覺(jué)語(yǔ)音交互毫無(wú)延遲,都成精了居然還不是GPT-5?
OpenAI發(fā)布了一個(gè)叫做GPT-4o的新模型,這個(gè)新模型的能力已經(jīng)讓不少人感到驚訝,而它甚至還不是GPT-5。
OpenAI給2024年5月14日的這場(chǎng)發(fā)布會(huì)取名“春季功能更新”,就像它們形容當(dāng)初ChatGPT的發(fā)布是一次“低調(diào)的研究預(yù)覽”一樣。
而就像那次一樣,一切也都回不去了。
OpenAI發(fā)布了一個(gè)叫做GPT-4o的新模型,它的確不是GPT-5,但看了它能做的事情,再想到它甚至不是OpenAI正在砸更多的錢和智慧在做的GPT-5,你只會(huì)感覺(jué)更“可怕”。
發(fā)布會(huì)一開(kāi)始,OpenAI的CTO Mira Murati介紹了新模型GPT-4o(是的,Sam Altman全程沒(méi)有現(xiàn)身)。她強(qiáng)調(diào)這個(gè)模型是要給所有人使用,并且通過(guò)交互的更新讓人們忘了UI的存在。因?yàn)镺penAI的愿景正是如此。
而到此這似乎還很正常。
“不過(guò)是新模型而已嘛?!?/p>
但直到demo環(huán)節(jié)開(kāi)始,一切越來(lái)越離譜。
首先是一個(gè)實(shí)時(shí)對(duì)話的展示。
“我正在做demo,我有點(diǎn)緊張?!盡ark說(shuō)。然后他開(kāi)始故意喘息的非???。而GPT識(shí)別出了他的呼吸。
“哦,哦,哦,別緊張,慢下來(lái)。你不是個(gè)吸塵器?!盋hatGPT的女人聲音抑揚(yáng)頓挫,沒(méi)有任何延遲。
是沒(méi)有任何延遲。你不需要等她,她也不會(huì)讓你等,當(dāng)你直接開(kāi)始說(shuō)接下來(lái)的話,她會(huì)立刻停下來(lái)聽(tīng),并立刻做出調(diào)整。
而且在這些回答中,它甚至有喘息和猶豫的聲音。
另一個(gè)很可怕的細(xì)節(jié)是,這些demo全程不需要任何多余的按鍵操作。
對(duì),聲音的對(duì)話就像是在“打電話”。
另一個(gè)demo是假設(shè)要給朋友講一個(gè)關(guān)于機(jī)器人的睡前故事。
提出需求后,ChatGPT開(kāi)始正常的講故事。
但聽(tīng)的人并不喜歡,于是直接打斷說(shuō),能不能講的更有感情更drama一點(diǎn)。
ChatGPT立刻調(diào)整,增加了一些懸疑感。
“不不不,我希望把感情和drama感拉滿。”聽(tīng)者再次直接打斷。——也就是說(shuō)ChatGPT在實(shí)時(shí)聽(tīng)著你的聲音。
然后ChatGPT變成了一個(gè)非常浮夸的故事講述者。
“你能不能用機(jī)器人的聲音給我講故事?!盡ira又直接插話。
而ChatGPT立刻開(kāi)始模仿機(jī)器人。注意,是模仿,也就是它的聲音一直是那個(gè)女聲,一切聽(tīng)起來(lái)就像家長(zhǎng)在講睡前故事時(shí)候會(huì)做的那樣。
“你能最后唱一首歌把這個(gè)故事結(jié)束么?!甭?tīng)者又提了要求。
然后ChatGPT立刻唱了一首歌。根據(jù)剛才的故事,實(shí)時(shí),改編,并直接唱出來(lái)的一首歌。
“如果你之前使用過(guò)我們的語(yǔ)音模式,你會(huì)注意到幾個(gè)關(guān)鍵的區(qū)別。首先,你現(xiàn)在可以打斷模型了。你不需要等它結(jié)束你的回合,你可以隨時(shí)開(kāi)始說(shuō)話,隨時(shí)插話。其次,模型的響應(yīng)是實(shí)時(shí)的。這意味著你不需要再經(jīng)歷那種尷尬的兩到三秒的延遲,等待模型回應(yīng)。最后,當(dāng)我剛才呼吸非常急促時(shí),模型能夠感知到情緒。它會(huì)提醒你,或許你需要放松一下,你的節(jié)奏快得有點(diǎn)過(guò)頭了。所以你知道,它確實(shí)具有全面感知情緒的能力。不僅如此,這個(gè)模型還能以各種不同的情感風(fēng)格生成聲音,它真的具有非常廣泛的動(dòng)態(tài)范圍?!?/p>
如果你是個(gè)創(chuàng)業(yè)者,或者熟悉大模型應(yīng)用創(chuàng)業(yè)環(huán)境的人,你會(huì)立刻意識(shí)到。
又有一批創(chuàng)業(yè)公司死了。
之后是視覺(jué)能力的展示。
對(duì),在同一個(gè)產(chǎn)品上。一個(gè)據(jù)說(shuō)要免費(fèi)提供給全世界所有人的產(chǎn)品上。
他先是展示了一個(gè)通過(guò)攝像頭獲得視覺(jué)能力,然后實(shí)時(shí)指導(dǎo)你的數(shù)學(xué)解題的demo。
甚至因?yàn)椤盎糜X(jué)”問(wèn)題,ChatGPT在還沒(méi)打開(kāi)攝像頭時(shí)候就自信滿滿的說(shuō)理解了。當(dāng)展示者提示后,她說(shuō)“oops,我太興奮了?!?/p>
然后展示者打開(kāi)攝像頭,實(shí)時(shí)寫(xiě)了一個(gè)數(shù)學(xué)方程題,然后讓ChatGPT一步一步的提醒和講解他在做的解題思路。ChatGPT很好的做到了。
像一個(gè)很有經(jīng)驗(yàn)有耐心的數(shù)學(xué)老師那樣。
這還沒(méi)完。
似乎是為了打臉那些錄制好加速后的demo,他們還實(shí)時(shí)收集了X上的反饋。其中一個(gè)挑戰(zhàn)是:打開(kāi)攝像頭讓ChatGPT實(shí)時(shí)分析你的情緒。
展示者開(kāi)始攝像頭自拍,而ChatGPT立刻分析道:
“你看起來(lái)是個(gè)桌子?!薄?yàn)榇蜷_(kāi)攝像頭時(shí),最先打開(kāi)的是前置的攝像頭,對(duì)準(zhǔn)的是桌子。
“不不不,那是之前的,你不用擔(dān)心,我不是個(gè)桌子?!狈窒碚哒f(shuō)到。
“哈哈,那就合理了?!盋hat GPT說(shuō)到。
這里看的時(shí)候,估計(jì)很多人跟我一樣驚了一下。
然后ChatGPT立刻分析:“你看起來(lái)非常開(kāi)心。大大的笑容,甚至有一點(diǎn)興奮。你想分享一下讓你這么開(kāi)心的原因么?”語(yǔ)氣里甚至能聽(tīng)到好奇,以及斟酌語(yǔ)句的感覺(jué)。
“因?yàn)槲以谧鰧?shí)時(shí)展示,讓大家看看你有多出色?!敝v者說(shuō)。
“哦,拜托,別讓我臉紅了。”ChatGPT帶著笑聲說(shuō)到。
瞬間,《Her》降臨??苹贸闪爽F(xiàn)實(shí)。
看到這,所有人估計(jì)都明白了Sam Altman此前賣關(guān)子時(shí)候說(shuō)的“magic”是什么。
在驚嘆之余,還是再總結(jié)一下:
- 這些操作全程沒(méi)有多余的點(diǎn)擊操作的交互。
- 沒(méi)有絲毫延遲的視覺(jué)和聲音反饋。
- 不僅能感受到你的情感,ChatGPT也自帶情緒和情感。
- 能對(duì)桌面等更數(shù)字化的世界有更全面的信息感知。
- 全部集成在一個(gè)產(chǎn)品里,而且可能是對(duì)所有人免費(fèi)的。
哦對(duì),以及,這還不是GPT-5。
發(fā)布會(huì)后,OpenAI也在官網(wǎng)更新了這次發(fā)布的模型的具體信息:
https://openai.com/index/hello-gpt-4o/
還記得ChatGPT第一次出來(lái)時(shí),有人形容跟它第一次親密接觸的感受:
當(dāng)你通過(guò)打字跟它交互的時(shí)候,等待它回答的過(guò)程仿佛能想象到對(duì)面坐著一個(gè)人,正在轉(zhuǎn)筆,思考如何回答你的問(wèn)題。
而今天,不只是你的嘆氣,情感和喘息能被AI感受到,你也能直接感受到對(duì)面的“人”的嘆氣,情感,和喘息。
在電影《Her》里,主人公最終愛(ài)上了這個(gè)AI助手。我們不知道GPT-4o加持下的新ChatGPT會(huì)帶來(lái)什么。更不知道GPT-5出現(xiàn)后會(huì)發(fā)生什么。
一切都太快了,都回不去了。
最后,對(duì)所有開(kāi)發(fā)者和創(chuàng)業(yè)者,這次發(fā)布又意味著什么?
也許這句當(dāng)時(shí)有些被人不以為意甚至覺(jué)得冒犯的話值得再看一遍,它可能說(shuō)明了一切:
目前有兩種構(gòu)建人工智能的策略:一種是假設(shè)模型不會(huì)改進(jìn),然后在現(xiàn)有的能力上建設(shè)一堆小東西;另一種是假設(shè) OpenAI 將保持相同的增長(zhǎng)軌跡(繼續(xù)瘋狂迭代)。我認(rèn)為,95%的人應(yīng)該押注在第二種策略上。我們有改進(jìn)模型的使命,不是我不喜歡你們,但我們將碾壓你。
——Sam Altman,2023年4月17日
作者:王兆洋
來(lái)源公眾號(hào):硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!