日本欧洲亚洲精品在线观看，中文字幕亚洲第16页，最新AV网站在线看，精品国产亚洲第一区二区三区，亚洲午夜无码影片免费，日韩精品一区二区四区五区，欧美精品久久国产欧美日韩，丝袜制服欧洲亚洲中文

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

遙遙領(lǐng)先的OpenAI慢下來了

虎嗅

2024-05-14

0 評(píng)論 1145 瀏覽 1 收藏

14 分鐘

就在最近，OpenAI公布了最新的GPT-4o，雖然GPT-4o的演示效果仍可稱得上“炸裂”，但業(yè)內(nèi)人士普遍認(rèn)為很難配得上Altman預(yù)告中的“魔法”二字。對(duì)于OpenAI的動(dòng)作，國內(nèi)從業(yè)者們也有自己的看法。

“如果發(fā)布的是GPT-5，那OpenAI依然遙遙領(lǐng)先。如果是AI Search或者是語音助手，那就說明OpenAI沒落了?！?/p>

一位AI大模型從業(yè)者告訴虎嗅，業(yè)內(nèi)對(duì)OpenAI的期待太高，除非是GPT-5這樣的顛覆式創(chuàng)新，否則很難滿足觀眾的“胃口”。

雖然Sam Altman在OpenAI線上直播前，已經(jīng)預(yù)告不會(huì)發(fā)布GPT-5（或GPT-4.5），但外界對(duì)OpenAI的期待早已是九牛拉不轉(zhuǎn)了。

北京時(shí)間5月14日凌晨，OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型）。20多分鐘的演示直播，展示了遠(yuǎn)超當(dāng)前所有語音助手的AI交互體驗(yàn)，與外媒此前透露的消息基本重合。

雖然GPT-4o的演示效果仍可稱得上“炸裂”，但業(yè)內(nèi)人士普遍認(rèn)為很難配得上Altman預(yù)告中的“魔法”二字。很多人認(rèn)為，這些功能性的產(chǎn)品，都是“偏離OpenAI使命”的。

OpenAI的PR團(tuán)隊(duì)似乎也預(yù)料到了這種輿論走向。發(fā)布會(huì)現(xiàn)場(chǎng)以及會(huì)后Altman發(fā)布的博客中對(duì)此解釋道：

“我們使命的一個(gè)關(guān)鍵部分是將非常強(qiáng)大的人工智能工具免費(fèi)（或以優(yōu)惠的價(jià)格）提供給人們。我非常自豪我們?cè)?ChatGPT 中免費(fèi)提供了世界上最好的模型，沒有廣告或類似的東西。

當(dāng)我們創(chuàng)辦 OpenAI 時(shí)，我們最初的想法是我們要?jiǎng)?chuàng)造人工智能并利用它為世界創(chuàng)造各種利益。相反，現(xiàn)在看起來我們將創(chuàng)造人工智能，然后其他人將使用它來創(chuàng)造各種令人驚奇的事物，讓我們所有人都受益?！?/p>

一、遙遙領(lǐng)先的GPT-4o

“如果我們必須等待 5 秒鐘才能得到‘每個(gè)’回復(fù)，用戶體驗(yàn)就會(huì)一落千丈。即使合成音頻本身聽起來很真實(shí)，它也會(huì)破壞沉浸感，讓人感覺毫無生氣?！?/p>

在OpenAI發(fā)布會(huì)前夕，英偉達(dá)Embodied AI負(fù)責(zé)人Jim Fan在X上預(yù)測(cè)了OpenAI會(huì)發(fā)布的語音助手，并提出：

幾乎所有的語音AI都會(huì)經(jīng)歷三個(gè)階段：

1. 語音識(shí)別或“ASR”：音頻->文本1，例如Whisper；

2. 計(jì)劃下一步要說什么的 LLM：text1 -> text2;

3. 語音合成或“TTS”：text2 ->音頻，例如ElevenLabs或VALL-E。

經(jīng)歷 3 個(gè)階段會(huì)導(dǎo)致巨大的延遲。

GPT-4o在響應(yīng)速度方面，幾乎解決了延遲問題。GPT-4o的響應(yīng)音頻輸入的最短時(shí)長為232毫秒，平均響應(yīng)時(shí)長320毫秒，幾乎與人類相似。沒有使用GPT-4o的ChatGPT語音對(duì)話功能平均延遲為2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。

GPT-4o不僅通過縮短延遲極大地提升了體驗(yàn)，還在GPT-4的基礎(chǔ)上做了很多升級(jí)包括：

極佳的多模態(tài)交互能力，包括語音、視頻，以及屏幕共享。

可以實(shí)時(shí)識(shí)別和理解人類的表情，文字，以及數(shù)學(xué)公式。

交互語音感情豐富，可以變換語音語調(diào)、風(fēng)格，還可以模仿，甚至“即興”唱歌。

超低延時(shí)，且可以在對(duì)話中實(shí)時(shí)打斷AI，增加信息或開啟新話題。

所有ChatGPT用戶均可免費(fèi)使用（有使用上限）。

速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。

二、“沒落”的OpenAI

“這些局限性的突破都是創(chuàng)新?！?/p>

有業(yè)內(nèi)專家認(rèn)為，GPT-4o的多模態(tài)能力只是“看起來”很好，實(shí)際上OpenAI并未展示對(duì)于視覺多模態(tài)來說真正算是“突破”的功能。

這里我們按大模型行業(yè)的習(xí)慣，對(duì)比一下隔壁廠Anthropic的Claude 3。

Claude 3的技術(shù)文檔中提到，“雖然Claude的圖像理解能力是尖端的，但需要注意一些局限性”。

其中包括：

人物識(shí)別：Claude不能用于在圖像中識(shí)別（即姓名）人物，并將拒絕這樣做。

準(zhǔn)確性：Claude在解釋200像素以下的低質(zhì)量、旋轉(zhuǎn)或非常小的圖像時(shí)，可能會(huì)產(chǎn)生幻覺或犯錯(cuò)誤。

空間推理：克勞德的空間推理能力有限。它可能很難完成需要精確定位或布局的任務(wù)，例如讀取模擬鐘面或描述棋子的確切位置。

計(jì)數(shù)：Claude可以給出圖像中物體的近似計(jì)數(shù)，但可能并不總是精確準(zhǔn)確的，特別是對(duì)于大量小物體。

AI生成的圖像：Claude不知道圖像是否是人工智能生成的，如果被問到，可能不正確。不要依賴它來檢測(cè)假圖像或合成圖像。

不適當(dāng)?shù)膬?nèi)容：Claude不會(huì)處理違反我們可接受使用政策的不適當(dāng)或露骨的圖像。

醫(yī)療保健應(yīng)用：雖然Claude可以分析一般醫(yī)學(xué)圖像，但它不是為解釋CT或MRI等復(fù)雜診斷掃描而設(shè)計(jì)的。Claude的輸出不應(yīng)被視為專業(yè)醫(yī)療建議或診斷的替代品。

在GPT-4o網(wǎng)站發(fā)布的案例中，有一些與“空間推理”有相關(guān)的能力，但仍難算得上突破。

此外，從發(fā)布會(huì)現(xiàn)場(chǎng)演示中GPT-4o輸出的內(nèi)容很容易看出，其模型能力與GPT-4相差并不大。

GPT-4o跑分

雖然模型可以在對(duì)話中增加語氣，甚至即興演唱，但對(duì)話內(nèi)容還是與GPT-4一樣缺乏細(xì)節(jié)和創(chuàng)造力。

此外，發(fā)布會(huì)后OpenAI官網(wǎng)還發(fā)布了GPT-4o的一系列應(yīng)用案例探索。包括：照片轉(zhuǎn)漫畫風(fēng)格；會(huì)議記錄；圖片合成；基于圖片的3D內(nèi)容生成；手寫體、草稿生成；風(fēng)格化的海報(bào)，以及連環(huán)畫生成；藝術(shù)字體生成等。

而這些能力中，照片轉(zhuǎn)漫畫風(fēng)格、會(huì)議記錄等，也都是一些看起來很普通的文生圖或者是AI大模型功能。

三、能挑戰(zhàn)現(xiàn)有的商業(yè)模式嗎？

“我注冊(cè)5個(gè)免費(fèi)的ChatGPT賬號(hào)，是不是就不需要每月花20美元訂閱ChatGPT Plus呢？”

OpenAI公布的GPT-4o使用政策是ChatGPT Plus用戶比限制普通用戶的流量限制高5倍。

GPT-4o對(duì)所有人免費(fèi)，首先挑戰(zhàn)的似乎是OpenAI自己的商業(yè)模型。

第三方市場(chǎng)分析平臺(tái)Sensor Tower公布的數(shù)據(jù)顯示，過去一個(gè)月中，ChatGPT在全球App Store中的下載量為700萬，訂閱收入1200萬美元；全球Google Play市場(chǎng)的下載量為9000萬，訂閱收入300萬美元。

目前，ChatGPT Plus在兩個(gè)應(yīng)用商店的訂閱價(jià)格均為19.99美元。由訂閱數(shù)據(jù)推斷，ChatGPT Plus過去一個(gè)月中，通過應(yīng)用商店付費(fèi)的訂閱用戶數(shù)為75萬。雖然ChatGPT Plus還有大量的直接付費(fèi)用戶，但從手機(jī)端的收入來看，每年進(jìn)項(xiàng)才不到2億美元，再翻幾倍也很難撐起OpenAI近千億的估值。

由此來看，OpenAI在個(gè)人用戶充值方面，其實(shí)并不需要考慮太多。

更何況GPT-4o主打體驗(yàn)好，如果你跟AI聊著聊著就斷了，還要換賬號(hào)重新聊，那你會(huì)不會(huì)憤然充值呢？

“最初的 ChatGPT 暗示了語言界面的可能性；這個(gè)新事物給人的感覺有本質(zhì)上的不同。它快速、智能、有趣、自然且有幫助?！?/p>

Sam Altman的最新博客中提到了“語言界面的可能性”，這也正是GPT-4o接下來可能要做的：挑戰(zhàn)所有GUI（圖形交互界面），以及想要在LUI（語音交互界面）上發(fā)力的人。

結(jié)合近期外媒透出的OpenAI與蘋果合作的消息，可以猜測(cè)GPT-4o可能很快就要對(duì)所有AI PC、AI手機(jī)的廠商“拋橄欖枝”或是“掀桌子”。

不管是哪種語音助手或是AI大模型，對(duì)于AIPC、AI手機(jī)來說核心價(jià)值都是優(yōu)化體驗(yàn)，而GPT-4o一下把體驗(yàn)優(yōu)化到了極致。

GPT-4o很可能會(huì)卷到所有已知的App，甚至是SaaS行業(yè)。過去一年多時(shí)間里，市場(chǎng)上所有已經(jīng)開發(fā)和正在開發(fā)的AI Agent都會(huì)面臨威脅。

某位資源聚合類app產(chǎn)品經(jīng)理曾對(duì)虎嗅表示，“我的操作流程就是產(chǎn)品的核心，如果操作流程被你ChatGPT優(yōu)化了，那相當(dāng)于我的App沒價(jià)值了。”

試想，如果訂外賣的App，UI變成了一句話“給我訂餐”，那打開美團(tuán)還是打開餓了么，對(duì)于用戶來說就一樣了。

廠商的下一步只能是壓縮供應(yīng)鏈、生態(tài)的利潤空間，甚至是惡性價(jià)格戰(zhàn)。

從目前的形式來看，其他廠商要在模型能力上打敗OpenAI恐怕還需要一段時(shí)間。

產(chǎn)品要對(duì)標(biāo)OpenAI，可能只有通過做更“便宜”的模型了。

四、對(duì)于國內(nèi)產(chǎn)業(yè)的影響

“最近忙死了，沒顧上關(guān)注他們?！?/p>

一位工業(yè)AI大模型創(chuàng)始人告訴虎嗅，近期一直在忙著溝通戰(zhàn)略合作、產(chǎn)品發(fā)布、客戶交流資本交流，完全沒有時(shí)間關(guān)注OpenAI這種發(fā)布。

OpenAI發(fā)布前，虎嗅也詢問了多位來自各行各業(yè)的國內(nèi)AI從業(yè)者，他們對(duì)OpenAI最新發(fā)布的預(yù)測(cè)與看法都很一致：非常期待，但與我無關(guān)。

一位從業(yè)者表示，從國內(nèi)目前的進(jìn)度來看，要在短期內(nèi)追上OpenAI不太現(xiàn)實(shí)。所以關(guān)心OpenAI發(fā)布了什么，最多也就是看看最新的技術(shù)方向。

目前國內(nèi)公司在AI大模型研發(fā)方面，普遍比較關(guān)注工程化和垂直模型，這些比較務(wù)實(shí)、容易變現(xiàn)的方向。

在工程方面，近期躥紅的Deepseek就正在國內(nèi)大模型行業(yè)中掀起Token的價(jià)格戰(zhàn)。在垂直模型方面，多位業(yè)內(nèi)人士告訴虎嗅，短期內(nèi)小模型和垂直模型的研發(fā)，基本都不會(huì)受到OpenAI的裹挾。

“有時(shí)候OpenAI的技術(shù)方向也不是很值得借鑒。”一位模型專家對(duì)虎嗅表示，Sora就是個(gè)很好的例子，2024年2月OpenAI發(fā)布了視頻模型Sora，實(shí)現(xiàn)了60秒的視頻穩(wěn)定輸出。雖然看起來效果很好，但后續(xù)的實(shí)踐幾乎沒有，落地速度也非常慢。

在Sora之前，國內(nèi)很多在文生視頻領(lǐng)域發(fā)力的公司和機(jī)構(gòu)已經(jīng)實(shí)現(xiàn)了15秒穩(wěn)定視頻生成，而Sora出來以后，一些公司的研發(fā)、融資、產(chǎn)品節(jié)奏都被打亂了，甚至使整個(gè)文生視頻行業(yè)的發(fā)展演變成了一場(chǎng)“技術(shù)的大躍進(jìn)”。

所幸，這次GPT-4o與Sora大有不同。OpenAI CTO Muri Murati 表示，在接下來的幾周內(nèi)，我們將繼續(xù)我們的迭代部署，為您提供所有功能。