在线免费av大全，亚洲va中文字幕无码一区，亚洲18禁在线影院，亚洲一级性爱在线看，亚洲中文字幕aⅴ天堂自拍，欧美激情乱码aⅴ，欧美又粗又大一区二区在线观看，亚洲色图日本系列

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

他們讓GPT-4看起來(lái)像個(gè)流氓

虎嗅

2024-03-05

0 評(píng)論 3162 瀏覽 0 收藏

17 分鐘

就在近日，Anthropic發(fā)布了最新的Claude 3模型系列，其中，Claude 3 Opus更是在多個(gè)測(cè)試數(shù)據(jù)集中全面超過(guò)了GPT-4。那么，在具體模型能力方面，Claude 3和GPT-4的差別到底在哪呢？Anthropic和OpenAI的差異究竟體現(xiàn)在何處？

當(dāng)?shù)貢r(shí)間3月4日，Anthropic發(fā)布了最新的Claude 3模型系列，包括Claude 3 Opus、Sonnet和Haiku三個(gè)模型，其中Claude 3 Opus在多個(gè)測(cè)試數(shù)據(jù)集中全面超過(guò)了GPT-4。

Anthropic是一家由OpenAI前成員Daniela Amodei、Dario Amodei和Jared Kaplan共同創(chuàng)立的美國(guó)人工智能（AI）初創(chuàng)公司，專注于開發(fā)通用AI系統(tǒng)和大型語(yǔ)言模型。

Claude 3 Haiku、Sonnet和Opus三款模型的能力和成本依次遞增，推理速度依次遞減。Claude 3 Opus性能最強(qiáng)，相對(duì)的輸出成本最高和輸出時(shí)間最長(zhǎng)，Claude 3 Opus模型在數(shù)學(xué)、編程、多語(yǔ)言理解和視覺(jué)等多項(xiàng)基準(zhǔn)測(cè)試中超越了GPT-4和Gemini 1.0 Ultra。

與GPT-4相比，Claude 3 Opus在多個(gè)測(cè)試數(shù)據(jù)集中全面超過(guò)了GPT-4。

Anthropic在Claude 3系列模型中首次放出了多模態(tài)能力，用戶可以上傳各類非結(jié)構(gòu)化數(shù)據(jù)如照片、圖表等供AI分析。這三個(gè)模型均支持200K token的長(zhǎng)上下文窗口，并向特定客戶開放超過(guò)100萬(wàn)token的上下文輸入能力。

不過(guò)，Claude 3模型的定價(jià)也高于GPT-4。能力最強(qiáng)的Claude 3 Opus比GPT-4 Turbo貴得多：GPT-4 Turbo每百萬(wàn)token輸入價(jià)格為10美元，輸出價(jià)格為30美元，Claude 3 Opus每百萬(wàn)token輸入5美元，輸出75美元。

Claude 3的定價(jià)

目前Claude 3 Haiku尚未推送，Sonnet已經(jīng)開放在Claude的官網(wǎng)上可以免費(fèi)試用，Opus也已經(jīng)上線，不過(guò)要體驗(yàn)Opus需要花每月20美元（不含稅）訂閱Claude Pro。相對(duì)于ChatGPT，目前Claude的全系產(chǎn)品均不能直接鏈接互聯(lián)網(wǎng)查詢資料。

一、安全第一

“安全、穩(wěn)定”一直被認(rèn)為是Claude的一大特點(diǎn)。

Anthropic開發(fā)了所謂的“憲法AI”技術(shù)，旨在將一系列原則賦予模型，以引導(dǎo)模型產(chǎn)生符合這些原則的文本，例如非有害、有益的內(nèi)容。這種方法旨在使Claude 2的行為更易于理解和調(diào)整，盡管公司承認(rèn)在預(yù)測(cè)模型在所有情況下的行為方面仍面臨挑戰(zhàn)。

Claude 2的另一個(gè)重點(diǎn)是降低模型產(chǎn)生有害、有偏見(jiàn)或不準(zhǔn)確回應(yīng)的概率。比如，與Claude 1.3相比，Claude 2在內(nèi)部評(píng)估中在給出“無(wú)害”回應(yīng)方面表現(xiàn)得“兩倍”更好。但是，這種改進(jìn)的具體含義并未詳細(xì)說(shuō)明，例如是指兩倍不太可能回應(yīng)帶有性別歧視或種族歧視的內(nèi)容，還是兩倍不太可能支持暴力或自殘等。

由此，Claude模型曾被質(zhì)疑“道德標(biāo)準(zhǔn)過(guò)高”。

此次發(fā)布的Claude 3，在安全性和倫理性方面也進(jìn)行了改進(jìn)，包括對(duì)有害內(nèi)容的更好管理和對(duì)有益行為的支持，同時(shí)減少了對(duì)良性提示的拒絕反應(yīng)。

在訓(xùn)練數(shù)據(jù)方面Anthropic也格外小心，盡量規(guī)避可能的風(fēng)險(xiǎn)。

Claude 3的訓(xùn)練數(shù)據(jù)來(lái)自2023年8月之前公開可獲得的互聯(lián)網(wǎng)信息、第三方提供的非公開數(shù)據(jù)、數(shù)據(jù)標(biāo)注服務(wù)和付費(fèi)合同工提供的數(shù)據(jù)以及Anthropic專門制作的數(shù)據(jù)集上訓(xùn)練的。Anthropic采用了多種數(shù)據(jù)清洗和過(guò)濾方法，包括去重和分類。值得注意的是，Claude 3的模型系列沒(méi)有使用任何用戶或客戶提交給我們的用戶提示或輸出數(shù)據(jù)進(jìn)行訓(xùn)練，包括免費(fèi)用戶、Claude Pro用戶和API客戶。

在獲取通過(guò)爬取公共網(wǎng)頁(yè)的數(shù)據(jù)時(shí)，Anthropic遵循行業(yè)實(shí)踐，尊重網(wǎng)站運(yùn)營(yíng)者通過(guò)robots.txt指令和其他信號(hào)用來(lái)指示是否允許爬取其網(wǎng)站內(nèi)容的做法。根據(jù)Anthropic的政策，其爬蟲不會(huì)訪問(wèn)受密碼保護(hù)或需要登錄的頁(yè)面，也不會(huì)繞過(guò)CAPTCHA控制。

Anthropic對(duì)所使用的數(shù)據(jù)進(jìn)行了盡職調(diào)查，并以透明的方式運(yùn)營(yíng)其爬蟲系統(tǒng)，這意味著網(wǎng)站運(yùn)營(yíng)者可以輕松識(shí)別Anthropic的訪問(wèn)并向Anthropic表達(dá)他們的偏好。

二、OpenAI的尷尬處境

Claude“過(guò)于安全”的屬性，也成了OpenAI的壓力。

Claude發(fā)布前月余，業(yè)界一直有傳聞?wù)J為，OpenAI將在Claude 3發(fā)布之際，迅速跟進(jìn)發(fā)布最新的GPT-4.5（5），或是秘密研發(fā)的Q*模型。

不過(guò)就在2月29日，馬斯克突然對(duì)OpenAI提起訴訟，指控OpenAI首席執(zhí)行官Sam Altman為了追求商業(yè)利益，違背了OpenAI“確保AI造福人類”的非盈利性初衷。馬斯克要求法院強(qiáng)制OpenAI回歸開源，并阻止公司及其創(chuàng)始人以及微軟等背后支持者從中獲利。

在此之前OpenAI在AGI研發(fā)方面就一直飽受質(zhì)疑，人們對(duì)“巨型”AI模型和AGI安全性的擔(dān)憂與日俱增，一些人甚至認(rèn)為OpenAI及其他AI大模型公司應(yīng)該暫時(shí)停止研發(fā)，等待相關(guān)法律、監(jiān)管制度的逐步健全。

此番全新發(fā)布的Claude 3，在模型能力方面繼續(xù)主打安全、穩(wěn)定。在Claude 3的襯托之下，如果OpenAI此時(shí)發(fā)布新模型，能力強(qiáng)則很可能在安全方面刺激監(jiān)管和輿論敏感的神經(jīng)，而能力弱，則自然會(huì)影響“大模型之王”的形象。

馬斯克的突然襲擊，似乎搞得OpenAI有點(diǎn)左右為難。Sam Altman如今也不得不把注意力從產(chǎn)品、模型中抽出來(lái)，轉(zhuǎn)而關(guān)注當(dāng)下輿論焦點(diǎn)的AI安全問(wèn)題。

正在發(fā)大火箭的馬斯克還特意跑來(lái)Anthropic點(diǎn)了個(gè)贊

就在Claude 3發(fā)布幾分鐘后，Sam Altman也發(fā)布了一條X推文，但他的推文卻與AI大模型技術(shù)和產(chǎn)品無(wú)關(guān)，而是關(guān)于一封公開信。

Sam Altman推文

風(fēng)險(xiǎn)投資家Ron Conway和他的公司SV Angel發(fā)起了一場(chǎng)名為：Build AI for a Better Future（構(gòu)建人工智能，共創(chuàng)美好未來(lái)）的聯(lián)名公開信活動(dòng)，旨在強(qiáng)調(diào)“最大限度地發(fā)揮人工智能的好處并減輕風(fēng)險(xiǎn)”對(duì)社會(huì)的“集體責(zé)任”。OpenAI、Google、Meta、Y Combinator等科技公司、投資機(jī)構(gòu)參與并簽署了這份聯(lián)名公開信。

目前，關(guān)于GPT-4.5（5）和Q*的猜測(cè)仍未停止，而OpenAI近期是否真的會(huì)發(fā)布新模型，讓我們拭目以待。

三、GPT-4和Claude誰(shuí)強(qiáng)？

“跑分”戰(zhàn)勝了GPT-4，但具體模型能力方面，Claude 3和GPT-4的差別到底在哪呢？

首先是多模態(tài)理解與處理能力，Claude 3能夠處理和理解圖像和視頻幀輸入，從而解決超出簡(jiǎn)單文本理解的復(fù)雜多模態(tài)推理挑戰(zhàn)。

在AI2D科學(xué)圖表基準(zhǔn)測(cè)試中，Claude 3的能力得到了展示，尤其是在視覺(jué)問(wèn)答評(píng)估方面。這項(xiàng)評(píng)估涉及到理解和分析圖表，然后根據(jù)圖表信息回答多項(xiàng)選擇題。簡(jiǎn)單來(lái)說(shuō)，就像在考試中，你被給了一些圖表（比如柱狀圖、線圖等），然后要回答一些基于這些圖表的問(wèn)題。Claude 3不僅要理解圖表顯示的數(shù)據(jù)，還要準(zhǔn)確選擇正確的答案。

在這個(gè)測(cè)試中，Claude 3展現(xiàn)了非常高的準(zhǔn)確率，特別是Sonnet版本，在沒(méi)有任何預(yù)備知識(shí)（即0-shot設(shè)置，也稱為零樣本學(xué)習(xí)）的情況下就達(dá)到了89.2%的準(zhǔn)確率，這表明它非常擅長(zhǎng)理解圖表和回答相關(guān)問(wèn)題，即使是在沒(méi)有特定訓(xùn)練的情況下。這種能力對(duì)于執(zhí)行需要圖像和文本結(jié)合理解的任務(wù)非常重要，比如在學(xué)術(shù)研究、市場(chǎng)分析等領(lǐng)域。

在長(zhǎng)文本處理方面，Claude 3模型支持至少1M（1,000,000）個(gè)token的上下文，而目前在生產(chǎn)中僅提供最多200k（200,000）token的上下文。在長(zhǎng)文檔理解、跨文檔分析、金融數(shù)據(jù)分析等方面提供了更詳細(xì)和可操作的用例。這一點(diǎn)在處理大規(guī)模文本數(shù)據(jù)時(shí)，相對(duì)于GPT-4可能更有優(yōu)勢(shì)，尤其是在需要綜合分析和提取大量信息的場(chǎng)景中。

此外，Claude 3的多語(yǔ)言能力也被Anthropic認(rèn)為是一大亮點(diǎn)。Claude 3 Opus在多語(yǔ)言數(shù)學(xué)（MGSM）基準(zhǔn)測(cè)試中達(dá)到了超過(guò)90%的0-shot成績(jī)，并在8種語(yǔ)言中實(shí)現(xiàn)了超過(guò)90%的準(zhǔn)確率，包括法語(yǔ)、俄語(yǔ)、簡(jiǎn)體中文、西班牙語(yǔ)、孟加拉語(yǔ)、泰語(yǔ)、德語(yǔ)和日語(yǔ)。這表明Claude 3在多語(yǔ)言理解和推理方面具有較強(qiáng)的能力，尤其是在數(shù)學(xué)問(wèn)題解決方面。

最后，Claude 3在長(zhǎng)文本理解、推理、編程以及科學(xué)查詢處理方面均表現(xiàn)出良好的性能。其在長(zhǎng)文本問(wèn)題回答基準(zhǔn)測(cè)試QuALITY中的表現(xiàn)尤其突出，0-shot和1-shot設(shè)置下的表現(xiàn)均優(yōu)于早期模型，顯示了其在理解和處理長(zhǎng)文本上的高效能力。

在Claude的技術(shù)論文中也提到了一些模型的不足之處。

首先Claude不能聯(lián)網(wǎng)。雖然用戶可以通過(guò)直接分享的文檔方式互動(dòng)互動(dòng)，但Claude只能基于2023年8月之前的數(shù)據(jù)回答問(wèn)題，并拒絕識(shí)別圖像中的人物。

其次是所有大型語(yǔ)言模型（LLMs）都會(huì)遇到的問(wèn)題，生成內(nèi)容的準(zhǔn)確性和偏見(jiàn)，Claude亦會(huì)產(chǎn)生錯(cuò)誤信息（confabulations）、展現(xiàn)偏見(jiàn)、犯事實(shí)錯(cuò)誤，并可能被“破解”（jail-broken）。

多語(yǔ)言推理能力的不完備，在處理小語(yǔ)種時(shí)性能較不穩(wěn)定。

多模態(tài)能力方面的準(zhǔn)確性有待提高，Claude模型有時(shí)可能生成關(guān)于圖像的不準(zhǔn)確信息和描述。性能有時(shí)也會(huì)在處理小圖像或低分辨率圖像時(shí)降低。

最后是新能力的“潛在”負(fù)面效應(yīng)。Claude 3引入了新的多模態(tài)、多語(yǔ)言能力等，開發(fā)人員認(rèn)為這些能力有時(shí)可能會(huì)打破模型原有的“平衡”，某些新改進(jìn)的能力在其他領(lǐng)域可能造成潛在影響。

論文中提到：隨著時(shí)間的推移，決定Claude“個(gè)性”和能力的數(shù)據(jù)和影響因素變得相當(dāng)復(fù)雜。在簡(jiǎn)單可自動(dòng)化的方式中平衡這些因素，跟蹤它們，以及一般減少訓(xùn)練Claude的復(fù)雜性，仍然是我們的關(guān)鍵研究問(wèn)題。

四、走OpenAI沒(méi)走的路

Anthropic在Claude 3的發(fā)布博客中介紹了三款模型的潛在應(yīng)用方向，帶著濃濃的ToB商業(yè)化氣息。

Claude 3 Opus：任務(wù)自動(dòng)化，跨API和數(shù)據(jù)庫(kù)規(guī)劃和執(zhí)行復(fù)雜的操作、交互式編碼；研發(fā)，研究回顧、集思廣益和假設(shè)生成、藥物發(fā)現(xiàn)；策略，圖表、財(cái)務(wù)和市場(chǎng)趨勢(shì)的高級(jí)分析、預(yù)測(cè)。

Claude 3 Sonnet：數(shù)據(jù)處理，RAG或?qū)Υ罅恐R(shí)的搜索和檢索；銷售，產(chǎn)品推薦、預(yù)測(cè)、定向營(yíng)銷；節(jié)省時(shí)間的任務(wù)，代碼生成、質(zhì)量控制、從圖像中解析文本。

Claude 3 Haiku：客戶互動(dòng)，實(shí)時(shí)互動(dòng)、翻譯中快速、準(zhǔn)確的支持；內(nèi)容審核，捕捉危險(xiǎn)行為或客戶請(qǐng)求；節(jié)省成本的任務(wù)，優(yōu)化物流、庫(kù)存管理、從非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)。

外界一直認(rèn)為Anthropic是一家有著重度ToB基因的公司。

Anthropic在C輪融資中，引入了Google、Salesforce、Zoom等技術(shù)和服務(wù)市場(chǎng)上的ToB科技巨頭，這些合作伙伴對(duì)AI公司的訴求必然是將先進(jìn)的AI技術(shù)集成到自己的產(chǎn)品和服務(wù)中，以提高效率、創(chuàng)新能力和競(jìng)爭(zhēng)力。

此外，Anthropic已經(jīng)與Zoom開展合作，旨在“構(gòu)建以可靠性、生產(chǎn)力和安全性為中心的面向客戶的AI產(chǎn)品”，也清晰地表明了公司的B2B基因。這種合作通常涉及開發(fā)能夠?yàn)槠髽I(yè)提供具體價(jià)值的解決方案，如改善客戶服務(wù)、自動(dòng)化工作流程或提供決策支持等。

Anthropic還與波士頓咨詢集團(tuán)（BCG）合作，旨在將負(fù)責(zé)任的生成式AI技術(shù)引入到企業(yè)客戶中。通過(guò)這一合作，BCG的客戶可以直接利用Anthropic的AI系統(tǒng)，包括其最先進(jìn)的模型Claude 2，這些系統(tǒng)專注于可靠性、可解釋性和可控性。

目前，Anthropic聲稱已擁有多個(gè)來(lái)自不同行業(yè)（包括醫(yī)療保健、人力資源和教育等）的客戶。

在企業(yè)服務(wù)和ToB市場(chǎng)上，雖然OpenAI也推出了ChatGPT Enterprise版以及企業(yè)的API接口，但相對(duì)于Anthropic與企業(yè)的深度合作，則ToB屬性輕得多。

從這次Claude 3的中提及的很多重點(diǎn)也可以看出，Anthropic希望在商業(yè)化方面，走出一條與OpenAI不同的道路。

作者：齊?。痪庉嫞和跻基i；出品：虎嗅科技組

來(lái)源公眾號(hào)：虎嗅APP（ID：huxiu_com），從思考，到創(chuàng)造

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @虎嗅授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App