DeepSeek的“服務(wù)器繁忙”讓所有人抓狂,背后究竟是怎么回事

0 評論 2434 瀏覽 6 收藏 19 分鐘

隨著用戶量的爆炸式增長,DeepSeek頻繁出現(xiàn)“服務(wù)器繁忙”甚至宕機的情況,引發(fā)了用戶的廣泛吐槽。本文將深入探討DeepSeek服務(wù)器卡頓背后的原因,同時分析云服務(wù)商和芯片廠商紛紛上線DeepSeek服務(wù)卻未能緩解卡頓現(xiàn)象的原因。

DeepSeek頻頻回復的“服務(wù)器繁忙,請稍后再試”,正在讓各地用戶抓狂。

此前不太被大眾所知的DeepSeek,因2024年12月26日推出對標GPT 4o的語言模型V3而聲名鵲起。在1月20日DeepSeek又發(fā)布對標OpenAI o1的語言模型R1,之后因為“深度思考”模式生成的答案優(yōu)質(zhì)度高,以及其創(chuàng)新揭示出模型訓練前期成本可能驟降的積極信號,令該公司和應(yīng)用徹底出圈。之后,DeepSeek R1就一直在經(jīng)歷擁堵,它的聯(lián)網(wǎng)搜索功能間歇性癱瘓,深度思考模式則高頻率提示“服務(wù)器繁忙”,此類現(xiàn)象讓大量用戶倍感困擾。

十幾日前,DeepSeek開始經(jīng)歷服務(wù)器中斷,1月27日中午,DeepSeek官網(wǎng)已數(shù)次顯示“deepseek網(wǎng)頁/api不可用”,當日,DeepSeek成為周末期間iPhone下載量最高的應(yīng)用程序,在美區(qū)下載榜超越了ChatGPT。

2月5日,DeepSeek移動端上線26天,日活突破4000萬,ChatGPT移動端日活為5495萬,DeepSeek為ChatGPT的74.3%。

幾乎在DeepSeek走出陡峭增長曲線的同時,關(guān)于其服務(wù)器繁忙的吐槽紛至沓來,全世界用戶都開始遭遇問幾個問題就發(fā)生宕機的不便,各類替代訪問也開始出現(xiàn)。比如DeepSeek的平替網(wǎng)站,各大云服務(wù)商、芯片廠商和基礎(chǔ)設(shè)施公司都紛紛上線,個人部署教程也到處都是。但人們的抓狂卻沒有緩解:全球幾乎所有重要廠商都宣稱支持部署了DeepSeek,但各地用戶卻依然在吐槽服務(wù)的不穩(wěn)定。

這背后到底發(fā)生了什么?

01 習慣了ChatGPT的人們,受不了打不開的DeepSeek

人們對“DeepSeek服務(wù)器繁忙”的不滿,來自于此前以ChatGPT為主的AI頂流應(yīng)用們,甚少出現(xiàn)卡頓。自O(shè)penAI服務(wù)推出以來,ChatGPT雖然也經(jīng)歷了幾次P0級別(最嚴重的事故級別)宕機事故,但總體來說,它相對可靠,已然在創(chuàng)新和穩(wěn)定性之間找到平衡,并逐步成為類似傳統(tǒng)云服務(wù)的關(guān)鍵組成部分。

ChatGPT大范圍宕機次數(shù)并不算多

ChatGPT的推理過程相對穩(wěn)定,包括編碼和解碼兩個步驟,編碼階段把輸入文本轉(zhuǎn)換成向量,向量包含輸入文本的語義信息,解碼階段,ChatGPT使用先前生成的文本作為上下文,通過Transformer模型生成下一個單詞或短語,直到生成符合需求的完整語句,大模型本身屬于Decoder(解碼器)架構(gòu),解碼階段就是一個個token(大模型處理文本時的最小單位)的輸出過程,每向ChatGPT提問一次,就啟動一次推理流程。

舉例來說,如果向ChatGPT提問,“你今天心情如何”,ChatGPT會對這句話進行編碼,生成每層的注意力表示,根據(jù)之前所有token的注意力表示,預測得到第一個輸出token “我”,之后進行解碼,將“我”拼接到“你今天心情如何?”,后面得到“你今天心情如何?我”,得到新的注意力表示,然后預測下一個token :”的”,之后按照第一步,第二步循環(huán),最終得到“你今天心情如何?我的心情很好?!?/p>

編排容器的工具Kubernetes是ChatGPT的“幕后指揮官”,它負責調(diào)度和分配服務(wù)器資源。當涌入的用戶承載完全超出Kubernetes控制平面的承受能力時,就會導致ChatGPT系統(tǒng)的全面癱瘓。

ChatGPT發(fā)生癱瘓的總次數(shù)不算太多,但這背后是它依靠的強大資源作為支撐,維持穩(wěn)定運轉(zhuǎn)背后是強大算力,而這是人們忽視的地方。

一般而言,由于推理處理的數(shù)據(jù)規(guī)模往往較小,因此對算力的要求不如訓練般高。有業(yè)界人士估算指出,在正常大模型推理過程中,顯存的主要占用模型參數(shù)權(quán)重占大頭,大概占比在80%以上?,F(xiàn)實情況是,在ChatGPT內(nèi)置的多個模型中,里面默認模型尺寸都比DeepSeek-R1 的671B要小,加上ChatGPT擁有比DeepSeek多得多的GPU算力,自然展現(xiàn)出比DS- R1更為穩(wěn)定的表現(xiàn)。

DeepSeek-V3與R1都是一個671B的模型,模型啟動過程就是推理的過程,推理時的算力儲備需要與用戶量相襯,比如有1億用戶量就需配備1億用戶量的顯卡,不僅龐大,且與訓練時的算力儲備獨立開來,并不相關(guān)。從各方信息看,DS的顯卡和算力儲備明顯不足,于是頻頻卡頓。

這種對比讓適應(yīng)了ChatGPT絲滑體驗的用戶并不習慣,特別是他們對R1的興趣愈發(fā)高漲的當下。

02 卡,卡,還是卡

而且,仔細對比,OpenAI和DeepSeek遇到的情況是很不同的。

前者有微軟做后盾,作為OpenAI的獨家平臺,微軟Azure云服務(wù)搭載了ChatGPT、Dalle-E 2圖像生成器、GitHub Copilot自動編碼工具,此后,這一組合成為了云+AI的經(jīng)典范式,并快速普及成為業(yè)界標配;后者雖是初創(chuàng),卻大部分情況下依靠自建數(shù)據(jù)中心,與谷歌類似,而不依賴第三方云計算提供商。硅星人查閱公開信息后發(fā)現(xiàn),DeepSeek在任何層面都沒有跟云廠商芯片廠商開啟合作(雖然春節(jié)期間云廠商紛紛宣布讓DeepSeek模型跑在其上,但他們并沒有開展任何真正意義的合作)。

而且,DeepSeek遇到了史無前例的用戶增長,這意味著它對應(yīng)激情況的準備時間也比ChatGPT更少。

DeepSeek的良好性能來自其在硬件和系統(tǒng)層面做出的整體優(yōu)化。DeepSeek的母公司幻方量化,早在2019年就花了2億打造螢火一號超算集群,到22年就默默存儲萬張A100顯卡,為了更高效的并行訓練,DeepSeek自研了HAI LLM訓練框架。業(yè)界認為,螢火集群可能采用了數(shù)千至數(shù)萬張高性能GPU(如英偉達A100/H100或國產(chǎn)芯片),以提供強大的并行計算能力。目前螢火集群支撐了DeepSeek-R1、DeepSeek-MoE等模型訓練,這些模型在數(shù)學、代碼等復雜任務(wù)中表現(xiàn)接近于GPT-4水平。

螢火集群代表著DeepSeek在全新架構(gòu)和方法上的探索歷程,也讓外界認為,通過這類創(chuàng)新技術(shù),DS降低了訓練的成本,可以僅需西方最先進模型幾分之一的算力,就訓練出與頂級AI模型性能相當?shù)腞1。SemiAnalysis經(jīng)推算指出,DeepSeek實際擁有龐大的算力儲備:DeepSeek共堆砌了6萬張英偉達GPU卡,其中包括1萬張A100、1萬張H100、1萬張“特供版”H800以及3萬張“特供版”H20。

這似乎意味著R1的卡量比較充足。但實際上,作為推理模型的R1,對標的是OpenAI的O3,這類推理模型需要部署更多算力用于應(yīng)答環(huán)節(jié),但DS在訓練成本側(cè)節(jié)約的算力,與推理成本側(cè)驟增的算力,孰高孰低,目前并不明確。

值得一提的是,DeepSeek-V3和DeepSeek-R1都是大語言模型,但運作方式有差。DeepSeek-V3 是指令模型,類似ChatGPT,接收提示詞生成相應(yīng)文本進行回復。但DeepSeek-R1是推理模型,用戶向R1提問時,它會首先進行大量的推理過程,然后再生成最終答案。R1生成的token中首先出現(xiàn)的是大量的思維鏈過程,模型在生成答案之前,會先解釋問題,分解問題,所有這些推理過程都會以token的形式快速生成。

在耀途資本副總裁溫廷燦看來,前述DeepSeek龐大的算力儲備是指訓練階段,訓練階段算力團隊可規(guī)劃,可預期,不容易出現(xiàn)算力不足,但推理算力則不確定性較大,因為主要取決于用戶規(guī)模和使用量,相對來說彈性較大,“推理算力會按照一定規(guī)律增長,但隨著DeepSeek成為現(xiàn)象級產(chǎn)品,短時間內(nèi)用戶規(guī)模和使用量爆炸性增長,這導致推理階段算力需求爆炸性增長,所以出現(xiàn)卡頓?!?/p>

即刻上活躍的模型產(chǎn)品設(shè)計師,獨立開發(fā)者歸藏認同卡量是DeepSeek卡頓的主因,他認為DS作為當前在全球140個市場下載量最高的移動應(yīng)用,現(xiàn)在的卡無論如何都撐不住,哪怕用新的卡也不行,因為“新的卡做云是需要時間”。

“英偉達A100、H100等芯片運行一個小時的成本有公允的市場價格,DeepSeek從輸出token的推理成本上看是比OpenAI同類模型o1便宜90%以上,這個跟大家的計算偏差不大,因此模型架構(gòu)MOE本身不是最主要問題,但DS擁有的GPU數(shù)量決定了他們每分鐘最多可以生產(chǎn)提供的token數(shù),即便可以把更多GPU用來做推理服務(wù)用戶,而不用于預訓練研究,但上限在那擺著。”AI原生應(yīng)用小貓補光燈的開發(fā)者陳云飛持類似觀點。

也有業(yè)界人士向硅星人提到,DeepSeek卡頓本質(zhì)在于私有云沒有做好。

黑客攻擊則是R1卡頓另一驅(qū)動因素。1月30日,媒體從網(wǎng)絡(luò)安全公司奇安信獲悉,針對DeepSeek線上服務(wù)的攻擊烈度突然升級,其攻擊指令較1月28日暴增上百倍。奇安信Xlab實驗室觀察到至少有2個僵尸網(wǎng)絡(luò)參與攻擊。

但這種R1自身服務(wù)的卡頓,有一個看起來比較顯然的解決方案,是第三方提供服務(wù)。這也是我們在春節(jié)期間目睹的最為熱鬧的景觀——各家廠商紛紛部署服務(wù),承接人們對DeepSeek的需求。

1月31日,英偉達宣布,NVIDIA NIM已經(jīng)可以使用DeepSeek-R1,此前英偉達受DeepSeek影響,一夜市值蒸發(fā)近6000億美元。同天,亞馬遜云AWS的用戶可以在其人工智能平臺,Amazon Bedrock和Amazon SageMaker AI中部署DeepSeek最新R1基礎(chǔ)模型。隨后,包括Perplexity,Cursor在內(nèi)的AI應(yīng)用新貴,也批量接入DeepSeek。微軟則搶在亞馬遜、英偉達之前,率先把DeepSeek-R1部署在了云服務(wù)Azure和Github上。

2月1日大年初四開始,華為云,阿里云,字節(jié)跳動旗下的火山引擎和騰訊云也加入其間,他們一般提供的是DeepSeek全系、全尺寸模型部署服務(wù)。再之后是壁仞科技、瀚博半導體、昇騰、沐曦等AI芯片廠商,他們自稱適配了DeepSeek原版或更小尺寸的蒸餾版本。軟件公司方面,用友、金蝶等是在部分產(chǎn)品中接入DeepSeek模型,增強產(chǎn)品力,最后是終端廠商如聯(lián)想、華為、榮耀旗下部分產(chǎn)品接入DeepSeek模型,用作端側(cè)個人助手和汽車智能座艙。

迄今,DeepSeek依靠自身價值吸引來了全面龐大的朋友圈,囊括海內(nèi)外云廠商、運營商、券商和國家級平臺國家超算互聯(lián)網(wǎng)平臺。由于DeepSeek-R1是完全開源的模型,接入的服務(wù)商都成為了DS模型的受益方。這一方面極大抬高了DS的聲量,也同時造成了更為頻繁的卡頓現(xiàn)象,服務(wù)商和DS自身越來越受困于蜂擁而至的用戶,竟都沒有找到解決穩(wěn)定使用問題之關(guān)鍵竅門。

考慮到DeepSeek V3與R1兩個模型原版都高達6710億參數(shù),適合跑在云上,云廠商本身具備更充足的算力和推理能力,他們上線DeepSeek相關(guān)部署服務(wù)是為降低企業(yè)使用的門檻,其部署DeepSeek模型后對外提供DS模型的API,相比DS自己提供是的API,本被認為是可以提供比DS官方更好的使用體驗。

但現(xiàn)實中,DeepSeek-R1模型自身運行的體驗問題,在各家服務(wù)中都沒有得到解決,外界認為服務(wù)商們并不缺卡,但實際上他們部署的R1,開發(fā)者們對反應(yīng)體驗不穩(wěn)定的反饋,頻度完全與R1相當,這更多在于能分配給R1進行推理的卡量也并不太多。

“R1熱度保持在高位,服務(wù)商需要兼顧接入的其他模型,能提供給R1的卡很有限,R1的熱度又高,誰家一上R1,又以相對較低的價格提供,就會被沖垮?!蹦P彤a(chǎn)品設(shè)計師,獨立開發(fā)者歸藏對硅星人解釋了原因。

模型部署優(yōu)化是一個涵蓋眾多環(huán)節(jié)的寬泛領(lǐng)域,從訓練完成到實際硬件部署,涉及多層面工作,但對于DeepSeek的卡頓事件來說,原因可能更為簡單,比如太大的模型和上線之前的優(yōu)化準備不足。

一個熱門大模型上線之前,會遇到涉及技術(shù)、工程、業(yè)務(wù)等多方挑戰(zhàn),比如訓練數(shù)據(jù)與生產(chǎn)環(huán)境數(shù)據(jù)的一致性,數(shù)據(jù)延遲與實時性影響模型推理效果,線上推理效率和資源占用過高,模型泛化能力不足,以及工程方面像服務(wù)穩(wěn)定性、API與系統(tǒng)集成等方面。

很多當紅大模型上線之前都高度重視做好推理優(yōu)化,這是因為計算耗時和內(nèi)存問題,前者是指推理時延太長,造成用戶體驗差,甚至不能滿足延遲需求,也就是卡頓等現(xiàn)象,后者是指模型參數(shù)量多,耗費顯存,甚至單張 GPU 卡放不下,也會導致卡頓。

溫廷燦對硅星人解釋了原因,他稱服務(wù)商提供提R1服務(wù)遇到挑戰(zhàn),本質(zhì)是DS模型結(jié)構(gòu)特殊,模型太大+MOE(專家混合結(jié)構(gòu),一種高效計算的方式)架構(gòu),“(服務(wù)商)優(yōu)化需要時間,但是市場熱度是有時間窗口的,所以都是先上再優(yōu)化,而不是充分優(yōu)化后上線?!?/p>

R1要想穩(wěn)定運行,如今核心在于推理側(cè)的儲備和優(yōu)化之能力。DeepSeek需要做的是,找到方式把推理的成本降下來,把卡的輸出,單次輸出token的數(shù)量降下來。

與此同時,卡頓也說明DS本身的算力儲備很可能也沒有SemiAnalysis所述龐大,幻方基金公司要用卡,DeepSeek訓練團隊也要用卡,能排出來給用戶的卡一直不多。按照目前發(fā)展情形看,短期內(nèi)DeepSeek未必有動力花錢租服務(wù),繼而免費提供給用戶更好的體驗,他們更可能等到第一波C端商業(yè)模式梳理清晰之后,再考慮服務(wù)租賃的議題,這也意味著,卡頓還會持續(xù)不短的時間。

“他們大概需要兩步動作:1)做付費機制,限制免費用戶模型用量;2)找云服務(wù)廠商合作,用上別人的GPU資源?!遍_發(fā)者陳云飛給出的臨時解法在業(yè)界頗有共識。

但目前來看,DeepSeek對自己這個“服務(wù)器繁忙”問題顯得并不太著急。做為一家追逐AGI的公司,DeepSeek似乎不愿太著眼于這蜂擁而來的用戶流量??赡苡脩魝冊谖磥聿欢虝r間里還是要習慣面對“服務(wù)器繁忙”的界面了。

作者|李京亞

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!