外企互聯(lián)網(wǎng)金融產(chǎn)品——搭建事故應(yīng)變措施

1 評論 2949 瀏覽 4 收藏 10 分鐘

在工作過程中我們都會(huì)遇到不同的難點(diǎn)或者事故,那面對事故我們應(yīng)該采取怎樣的應(yīng)對措施呢?或者應(yīng)該怎樣提前預(yù)防?一起來看看作者是如何分析的。

還記得某個(gè)請了事假的周五下午,處理完事情之后,我跟朋友北京城區(qū)內(nèi)悠閑地吃個(gè)早午餐,沒想到手機(jī)中的Teams突然響起,一看竟然是來自公司作戰(zhàn)室的來電,心臟仿佛突然漏了一拍,只好放下手中的刀叉,接了起來……

對產(chǎn)品經(jīng)理來說,處理事故是必修的課題,但如何「漂亮地處理事故」,則是需要不斷與團(tuán)隊(duì)彼此磨合。有興趣了解的朋友就一起往下看看吧!

一、什么是事故應(yīng)變措施?

前陣子我看了一部被譽(yù)為人生必看的韓劇《浪漫醫(yī)生金師傅》,劇中描寫了許多醫(yī)院急診室的故事。

其實(shí)互聯(lián)網(wǎng)服務(wù)的生產(chǎn)事故,就像在醫(yī)院急診室一樣,得由一群經(jīng)驗(yàn)老道,并且可以處理各式各樣的醫(yī)護(hù)人員進(jìn)行第一步篩查,判斷發(fā)生原因,然后再交由各科室的同仁進(jìn)行詳細(xì)處理。

因此,在產(chǎn)品服務(wù)面對用戶之后,有一組非常重要又辛苦的互聯(lián)網(wǎng)急診室的守護(hù)者,就是SRE (Site Reliability Engineering)。

他們主要負(fù)責(zé)確保服務(wù)的穩(wěn)定性,監(jiān)控生產(chǎn)環(huán)境上的各種情況,一旦發(fā)生問題時(shí),就要立刻召集相關(guān)人員排查、解決。

服務(wù)穩(wěn)定性乍聽之下可能不太起眼,但卻至關(guān)重要。作為產(chǎn)品經(jīng)理,為了能夠提供更好的用戶體驗(yàn)、保持市場競爭力,並追求更好的商業(yè)價(jià)值,我們總是不停地在「持續(xù)迭代」,而如何平穩(wěn)、絲滑的調(diào)整,就依賴開發(fā)團(tuán)隊(duì)及SRE團(tuán)隊(duì)的合作。

互聯(lián)網(wǎng)服務(wù)上,系統(tǒng)包含的范圍非常廣,業(yè)務(wù)應(yīng)用服務(wù)、網(wǎng)路、數(shù)據(jù)庫、云端服務(wù)或伺服器等等,每一個(gè)環(huán)節(jié)都有可能出現(xiàn)異常,問題真的千奇百怪。

小到用戶不理解前端提示而誤操作、網(wǎng)路波動(dòng)影響接口調(diào)用失敗、或是大到整體機(jī)房出現(xiàn)異常、流量被惡意攔截需要緊急搶救的…等等。

面對不同等級的故障,團(tuán)隊(duì)?wèi)?yīng)該在事故的「處理時(shí)效」、「處理方式」、「通報(bào)范圍」的不同維度達(dá)成共識(shí)。

二、為什么要搭建事故應(yīng)變措施?

互聯(lián)網(wǎng)金融服務(wù)相比于工具類的服務(wù),服務(wù)的穩(wěn)定性,在用戶心智中很大程度與資金安全有所關(guān)聯(lián)。試想看看,如果隔天就是房貸的繳款截止日了,但是金融服務(wù)突然不能用,身上也沒有現(xiàn)金這多令人跳腳!

當(dāng)有生產(chǎn)事故發(fā)生時(shí),除了影響用戶體驗(yàn)、公司收入、更甚者可能引發(fā)輿論而影響公司聲譽(yù)。因此,在事故發(fā)生當(dāng)下,除了排查問題、解決問題之外,與團(tuán)隊(duì)內(nèi)部、外部合作方、外部用戶、公關(guān)媒體的溝通,每一個(gè)環(huán)節(jié)都至關(guān)重要。

三、如何搭建事故應(yīng)變措施?

1. 預(yù)想可能發(fā)生的事情

如同《浪漫醫(yī)生金師傅》劇中,我們可以看到許多奇特的意外傷害而來到醫(yī)院急診室的病患,例如:連環(huán)車禍、滑雪受傷、誤食農(nóng)藥、地震等各種天災(zāi)人禍皆有可能,而劇中的護(hù)理人員也會(huì)每天準(zhǔn)備好急診室常備用品,確保當(dāng)有需求時(shí),不會(huì)因?yàn)槲锲穮T乏而延誤搶救病患的最佳時(shí)間。

而反映在互聯(lián)網(wǎng)服務(wù)上,我們不難找到許多有心者惡意利用漏洞,或是意外情況而導(dǎo)致的生產(chǎn)事故,團(tuán)隊(duì)可以預(yù)先想到可能發(fā)生的情況,也可以在經(jīng)驗(yàn)中不斷學(xué)習(xí)。

例如:系統(tǒng)流量超過可負(fù)荷的限額、流量被惡意攔截、依賴性系統(tǒng)突發(fā)異常、用戶因不理解指引的誤操作…等等。

2. 確定有哪些重要團(tuán)隊(duì)成員

如上述說的,在討論生產(chǎn)事故處理機(jī)制時(shí),我認(rèn)為有這些角色的參與是非常重要的,每個(gè)角色可以從各自的角度提供專業(yè)建議與支持。

  • 產(chǎn)品經(jīng)理
  • 架構(gòu)師、開發(fā)、測試
  • 客戶服務(wù)團(tuán)隊(duì)
  • 外部合作伙伴團(tuán)隊(duì)
  • 公關(guān)團(tuán)隊(duì)
  • 法務(wù)、合規(guī)團(tuán)隊(duì)

3. 建立團(tuán)隊(duì)成員對于事故等級的共識(shí)

你知道嗎?在醫(yī)院的急診室中,并非先抵達(dá)的患者能夠優(yōu)先接受治療,而是需要依照傷病的緊急程度進(jìn)行優(yōu)先級排序。

因此,團(tuán)隊(duì)成員的首要目標(biāo)是擬定一套能夠幫助判斷「優(yōu)先級」的指標(biāo)架構(gòu),并且「達(dá)成共識(shí)」(當(dāng)然內(nèi)容可以依據(jù)業(yè)務(wù)發(fā)展而有所調(diào)整),畢竟當(dāng)真的有P0、P1的緊急問題時(shí),需要大家專心一致的解決。

這時(shí)候可不會(huì)希望因?yàn)楸舜藢?biāo)準(zhǔn)理解不一致,降低了事故解決的效率。

(1)建立指標(biāo):可以參考以下不同維度

  • 影響范圍:評估事故對用戶體驗(yàn)、業(yè)務(wù)運(yùn)行、系統(tǒng)功能、或服務(wù)可用性的影響范圍。
  • 持續(xù)時(shí)間:事故持續(xù)影響時(shí)間。
  • 重要性和緊急性:事故對業(yè)務(wù)運(yùn)營的重要性和需要被緊急解決的程度。
  • 合規(guī)性要求:思考事件對相關(guān)合規(guī)性要求的影響,如違背合規(guī)法務(wù)要求,可能會(huì)導(dǎo)致更嚴(yán)重的故事等級。
  • 可用備份和恢復(fù)策略:考慮備份和恢復(fù)策略的可用性和有效性。

(2)為每個(gè)指標(biāo)及事故等級定義數(shù)值

通常我們會(huì)與團(tuán)隊(duì)成員對于不同事故等級共同討論相關(guān)指標(biāo)維度,并建議「可快速量化」數(shù)值。例如:影響交易金額、事故持續(xù)時(shí)間、或受影響用戶數(shù)。

也需要針對不同等級的事故定義響應(yīng)時(shí)間以及目標(biāo)處理時(shí)間,例如:P0的事故需要一天內(nèi)解決,P1事故可以兩天內(nèi)解決,以此類推。

(3)為不同等級的事故,定義對應(yīng)SOP(標(biāo)準(zhǔn)作業(yè)程序)

我們其實(shí)沒有想像中的那么冷靜。

還記得開頭我提到的周六事件吧!我印象非常深刻,那天早上雖然是電話會(huì)議,但是我感覺許多人一進(jìn)到電話里頭就滿臉「我是誰?我在哪?」的感覺。

每一次有新同事加入時(shí),就要重新解釋一遍問題、影響以及當(dāng)前進(jìn)度,然后想辦法厘清原因、找到對應(yīng)的處理方式。

SOP(標(biāo)準(zhǔn)作業(yè)程序)是一個(gè)非常好的工具,可以幫助團(tuán)隊(duì)在緊急的時(shí)候,有一個(gè)可以參考的依據(jù)。

「服務(wù)降級」也是一種常采用的方式,例如在大促活動(dòng)的流量高峰時(shí),僅維持重要的系統(tǒng)交互,避免過多的系統(tǒng)交互影響服務(wù)響應(yīng)速度…等等。

4. 建立監(jiān)測預(yù)警機(jī)制

監(jiān)測與預(yù)警是預(yù)防、盡早掌握事故發(fā)生的重要工具。

例如:確保預(yù)先充值的云服務(wù),會(huì)在額度快被用完之前會(huì)提供郵件或短信預(yù)警、定期監(jiān)測主要核心流程是否有系統(tǒng)交互、流量請求(有時(shí)候沒有系統(tǒng)請求是因?yàn)橛脩舾緹o法訪問該頁面),越早發(fā)現(xiàn)事故,也可以越快控制影響范圍。

5. 事中優(yōu)先解決問題,事后詳細(xì)檢討

團(tuán)隊(duì)在事故發(fā)生的當(dāng)下,僅需要專注于最快的速度解決問題。而在事故解決后,也需要十分詳細(xì)地檢討原因。

每一次的生產(chǎn)事故對團(tuán)隊(duì)成員來說,都是極其寶貴的經(jīng)驗(yàn),而經(jīng)驗(yàn)不僅需要時(shí)間積累,更需要被紀(jì)錄與傳承,避免重蹈覆轍,保持互聯(lián)網(wǎng)的精神,小步快跑,在錯(cuò)誤中學(xué)習(xí)。

四、結(jié)語

處理生產(chǎn)事故的時(shí)候,在時(shí)間與情緒的雙重壓力下,其實(shí)常常需要花費(fèi)相當(dāng)高的溝通成本。所以建立起團(tuán)隊(duì)的合作共識(shí),持續(xù)地磨合出一些應(yīng)變機(jī)制。我也時(shí)常跟同事分享一個(gè)正念思考的心態(tài),「有生產(chǎn)問題,代表真的有用戶在使用你的服務(wù)??!」

本文由 @是安娜啊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 作為產(chǎn)品經(jīng)理,要有一種要應(yīng)對的能力,無論任何時(shí)候都要有一種轉(zhuǎn)變思維。

    來自吉林 回復(fù)