聊聊支付寶的重大事故
2025年1月16日下午,支付寶發(fā)生了一起P0級別的重大事故,短短二十幾分鐘內(nèi),所有訂單價格異常享受了政府補貼,打了八折。這一事件迅速引發(fā)了廣泛關(guān)注。
16號下午兩點40分到45分,支付寶出了一次P0級別的重大事故,這個時間段所有訂單的價格都享受了政府補貼,打了八折。支付寶這么大體量的公司,影響面一定特別廣,涉及的金額也會非常大。
一、這么大的公司也會出問題?
越大的公司,商城體系就會越復(fù)雜,各個模塊錯綜交互,哪一個分支場景沒有測試到位,就很容易出問題。
一般的大廠,功能上線需要經(jīng)歷:
1.產(chǎn)品方案設(shè)計,審視方案有無業(yè)務(wù)場景的漏洞,各個模塊的區(qū)分是否合理
2.架構(gòu)師從技術(shù)架構(gòu)梳理,如果識別產(chǎn)品經(jīng)理的方案不合理,還要重新調(diào)整方案
3.測試評審,一般答應(yīng)的項目,還會有解決方案測試,多方串聯(lián),保證各個項目細節(jié)能夠知悉到位
4.灰度上線,大功能一般需要灰度個幾周,沒有太多的異常反饋后才能全量上線
以上的流程任何一個步驟沒有做到位,都很容易出現(xiàn)問題。
大公司的流程一般都很完善,但并不代表大公司就不會出問題。
很多項目還是需要人的參與,是人都有七情六欲,比如稍微測試不周全,問題就出現(xiàn)了。
當(dāng)然,相比小公司,大公司這塊做的還是不錯的。
體現(xiàn)在:五分鐘就把問題處理掉了
二、為什么問題處理這么快?
五分鐘,什么概念?
發(fā)現(xiàn)問題到定位問題,隨隨便便都不止五分鐘,可是支付寶五分鐘就處理完了,這背后是非常強大的風(fēng)險管理機制在支撐。
我在前公司,一旦遇到現(xiàn)網(wǎng)問題,從運維的同事接收信息,到處理完畢,需要在15分鐘內(nèi)解決,不然就是大事故,要扣績效。
因為這個規(guī)則,運維團隊的配置,24小時的輪值監(jiān)控,產(chǎn)品經(jīng)理輪值監(jiān)控,開發(fā)測試人員的輪值,確保在出現(xiàn)異常的時候,能夠最快速度聯(lián)系到人,最快速定位到問題,及時解決問題。
五分鐘應(yīng)該是處理問題的天花板了,向支付寶致敬,每一個風(fēng)控體系的完善,少不了那么多運維團隊的辛勤付出。
很多小公司,別說五分鐘了,可能一旦出現(xiàn)問題,自己人都沒有發(fā)現(xiàn),還要等著用戶來主動反饋,而用戶的主動反饋有些時候還視而不見,即使知道了,還要從家里趕到公司,再定位問題,聯(lián)系各個產(chǎn)品經(jīng)理、開發(fā)、測試,不斷定位問題,這樣一來一回,估計一天就過去了。
記得印象很深的一次,618開門紅時候,有將近一個小時下不了單,損失慘重。后來有將近一個月的時間,所有的研發(fā)團隊都在做技術(shù)重構(gòu),1000多人的團隊,就只做一件事,可想而知影響面有多大。
支付寶還有一個更牛的,出問題的當(dāng)天晚上,就把錢要回來了。每個下單的,都綁定了支付寶賬號,天時地利人和都占據(jù)了,再一次把損失降到最低。
做電商的,危機意識太重要了,因為是和錢打交道的,一點點問題,就有可能給公司帶來直接的經(jīng)濟損失,而且甚至不可彌補。
警鐘長鳴
本文由人人都是產(chǎn)品經(jīng)理作者【蔡錦?!?,微信公眾號:【錦海說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!