任務(wù)調(diào)度產(chǎn)品經(jīng)理如何備戰(zhàn)618?

0 評論 4564 瀏覽 17 收藏 14 分鐘

編輯導(dǎo)讀:618作為一年中最重要的兩個促銷活動之一,會涉及到各個部門各個系統(tǒng)。而作為一名任務(wù)調(diào)度產(chǎn)品經(jīng)理,要如何開展工作,為618保駕護(hù)航?本文作者對此進(jìn)行了分析,與你分享。

618是電商的大日子,各路人馬各顯神通。作為中臺系統(tǒng)的小伙伴兒們,在“見不得人的中后臺”各種忙活。我們揭開它的神秘面紗,探究這群“地下”工作者們,是如何為618保駕護(hù)航的,如何讓那千萬臺冷冰冰的服務(wù)器協(xié)作起來、支撐PB級的數(shù)據(jù)運轉(zhuǎn),保障百億級訂單,千億級別的GMV的達(dá)成……

故事,從大數(shù)據(jù)平臺的核心環(huán)節(jié)“調(diào)度平臺”說起,任務(wù)調(diào)度是大數(shù)據(jù)平臺離線計算的重量級產(chǎn)品,它既承載了各類數(shù)據(jù)庫與數(shù)據(jù)集市間的同步工作,還承載了各類的離線數(shù)據(jù)計算工作。主要的應(yīng)用場景是數(shù)據(jù)的管理、搬運、計算、存儲。

目前任務(wù)調(diào)度支持多種任務(wù)類型,包括:普通任務(wù)、數(shù)據(jù)計算(py/sh/zip)、數(shù)據(jù)入庫任務(wù)、數(shù)據(jù)出庫任務(wù)、數(shù)據(jù)拉鏈任務(wù)、數(shù)據(jù)同步(JDW到Jmart)。

  • 數(shù)據(jù)計算(py/sh/zip):調(diào)度可以支持python、shell、jar等多種腳本類型,提供強大的計算能力可定時功能支持?jǐn)?shù)據(jù)的分析運算。
  • 入庫任務(wù):目前任務(wù)調(diào)度支持從MySQL、HBase、ElasticSearch、Oracle、mongodb、SQLServer、log、phoenix多種數(shù)據(jù)源抽取數(shù)據(jù)到數(shù)據(jù)倉庫的bdm層。
  • 出庫任務(wù):支持從Hive推送到包括MySQL、jss、HBase、Oracle、jinggo、postgresql、ElasticSearch、jimdb、phoenix等多種數(shù)據(jù)庫。
  • 數(shù)據(jù)拉鏈任務(wù):支持將bdm層的流水表,加工成fdm層的拉鏈表。
  • 數(shù)據(jù)同步(JDW到Jmart):支持將數(shù)據(jù)從數(shù)據(jù)倉庫,同步到數(shù)據(jù)集市。

通過任務(wù)調(diào)度系統(tǒng),可以方便快捷的管理定時任務(wù),支持任務(wù)間建立依賴關(guān)系,任務(wù)的快速補數(shù)和重跑,以及強大的監(jiān)控功能,提供良好的作業(yè)管理服務(wù)。

任務(wù)調(diào)度以強大的技術(shù)能力保障618的各種任務(wù)、那么作為調(diào)度的產(chǎn)品經(jīng)理如何保障618呢?

一、事前:制定大促保障策略&宣貫、執(zhí)行資源傾斜

準(zhǔn)備工作一:制定任務(wù)等級劃分規(guī)范、分等級保障機制和管控規(guī)范

將任務(wù)等級劃分為:0級、1級、2級、3級。0級:公司核心業(yè)務(wù),數(shù)據(jù)面向?qū)ο鬄橥獠靠蛻艋騼?nèi)部VP、一級部門領(lǐng)導(dǎo)及以上。一旦發(fā)生不可用會直接影響外部客戶合作項目,可能造成P0-P2級事故發(fā)生。

  • 1級:數(shù)據(jù)面向?qū)ο鬄槎壊块T領(lǐng)導(dǎo),一旦發(fā)生不可用會影響跨一級部門或以上合作項目,可能造成一般事故(P3級)的發(fā)生。
  • 2級:數(shù)據(jù)面向?qū)ο鬄槿壊块T領(lǐng)導(dǎo),一旦發(fā)生不可用會影響二級部門內(nèi)部項目。
  • 3級:數(shù)據(jù)面向?qū)ο鬄槿壊块T內(nèi)部,一旦發(fā)生不可用會影響三級部門內(nèi)部項目或個人報表數(shù)據(jù)。調(diào)度平臺會根據(jù)設(shè)置的等級進(jìn)行資源的分配

?準(zhǔn)備工作二:制定調(diào)度任務(wù)和質(zhì)量檢測的降級策略

制定任務(wù)調(diào)度的降級策略:

  1. L0、L1提供專屬監(jiān)控,保障任務(wù)及時收到告警通知。
  2. 大促期間資源緊張時平臺會對L2、L3采取任務(wù)延時抽取策略和任務(wù)一鍵推遲策略
  3. 必要時刻為L0、L1任務(wù)開啟綠色通道保障任務(wù)正常運行。
  4. L0、L1任務(wù)節(jié)點資源優(yōu)先分配。
  5. 針對任務(wù)關(guān)鍵屬性的修改以及任務(wù)禁用等高風(fēng)險操作,平臺針對不同級別有不同的管控策略。

制定數(shù)據(jù)質(zhì)量的降級策略:

  • 質(zhì)量規(guī)則執(zhí)行時長達(dá)到30分鐘,會給質(zhì)量分區(qū)負(fù)責(zé)人、關(guān)聯(lián)調(diào)度告警人發(fā)送提醒,確認(rèn)是否做干預(yù);
  • 質(zhì)量規(guī)則執(zhí)行時長達(dá)到60分鐘,系統(tǒng)自動終止質(zhì)量檢測,關(guān)聯(lián)調(diào)度任務(wù)正常執(zhí)行,本次質(zhì)量檢測失效,并給質(zhì)量分區(qū)負(fù)責(zé)人、關(guān)聯(lián)調(diào)度告警人、質(zhì)量管理員發(fā)送通知。

準(zhǔn)備工作三:制定調(diào)度任務(wù)的封板管理措施(新建、拷貝,禁用、重跑等)

在大促備戰(zhàn)期間如果有用戶進(jìn)行任務(wù)的創(chuàng)建及拷貝,由于新任務(wù)的安全性得不到保證,會存在諸如性能低、資源占用高等風(fēng)險,影響系統(tǒng)穩(wěn)定性等問題,針對上述問題產(chǎn)品制定了如下管控措施:禁止新建和拷貝任務(wù),需二級部門負(fù)責(zé)人審批。

對于新建任務(wù)項需要逐一檢查,包括:

  1. 關(guān)注任務(wù)周期為小時、分鐘;
  2. 評估任務(wù)對系統(tǒng)的影響;
  3. 檢查出庫任務(wù)SQL的where條件;
  4. 建議用戶配置任務(wù)監(jiān)控及超時時間。

對于拷貝的任務(wù)建議轉(zhuǎn)為新建任務(wù),按照新建任務(wù)進(jìn)行檢驗。如果沒有轉(zhuǎn)換要確認(rèn)一下幾項:

  1. 確認(rèn)原任務(wù)的近一周執(zhí)行情況,如運行異常,溝通具體原因;
  2. 確認(rèn)新任務(wù)與原任務(wù)的邏輯差別,包括SQL、參數(shù)等;
  3. 確認(rèn)所屬應(yīng)用、負(fù)責(zé)人、集市、隊列、賬號與申請單填寫的信息一致;
  4. 任務(wù)描述包含“通過流程申請拷貝,申請單ID及原任務(wù)ID”;
  5. 運行規(guī)則配置屬性檢驗:周期類型、運行時間與申請單一致。超時時間必填,需溝通確認(rèn)。最大并發(fā)實例數(shù)選擇為10以內(nèi)。
  6. 與用戶確認(rèn)節(jié)點編號;
  7. cgroup配置與用戶核實,避免資源不夠被kill或執(zhí)行慢;出庫任務(wù),建議對于內(nèi)存在推薦值上上浮1G;
  8. 任務(wù)監(jiān)控,推薦配置。對于啟用任務(wù)、修改任務(wù)運行規(guī)則、修改抽數(shù)sql、模型變更、修改任務(wù)屬性等操作,均有可能對系統(tǒng)的穩(wěn)定性造成影響,需要二級負(fù)責(zé)人進(jìn)行審批,停止接口的申請、任務(wù)調(diào)度3.5升級,其他任務(wù)非大促相關(guān)接入申請不再審批。對于數(shù)據(jù)質(zhì)量服務(wù)異常導(dǎo)致無法校驗數(shù)據(jù)是否符合要求時,對服務(wù)進(jìn)行降級。

準(zhǔn)備工作四:保障策略宣貫

按天發(fā)送調(diào)度任務(wù)等級劃分策略宣貫郵件。2.用戶視頻培訓(xùn),主要針對離線平臺、常用場景、監(jiān)控告警配置、調(diào)優(yōu)策略、大促保障五個方面為用戶做介紹。保證用戶在大促期間充分了解調(diào)度保障策略。

準(zhǔn)備工作五:資源傾斜,保障重點業(yè)務(wù)

產(chǎn)品經(jīng)理推進(jìn)用戶去評估任務(wù)的等級,并進(jìn)行變更,對L0、L1的任務(wù)必須要配置告警和質(zhì)量;對于核心業(yè)務(wù),?數(shù)據(jù)質(zhì)量檢測時長超過5分鐘,需配置超時策略,避免影響SLA;對于管控和保障大促穩(wěn)定性的措施,產(chǎn)品經(jīng)理對產(chǎn)品功能做相應(yīng)的設(shè)計、跟進(jìn)落地上線。做好大促保障的每一環(huán)。

二、事中:啟用保障策略

1)嚴(yán)格執(zhí)行封版管控措施

雖然在5月25號任務(wù)調(diào)度平臺會進(jìn)行封版的管控,但期間仍有特殊場景或業(yè)務(wù)進(jìn)行任務(wù)的新建和修改,此時需要二級部門負(fù)責(zé)人進(jìn)行審批。比如,在大促期間一個部門要批量禁用所有任務(wù),此時產(chǎn)品經(jīng)理就要考慮幾個問題:

  1. 是禁用一次還是大促期間多次啟用禁用?
  2. 是否所有任務(wù)都?xì)w屬于這個部門?
  3. 禁用所有任務(wù)都價值?
  4. 會產(chǎn)生哪些不利的影響?
  5. 操作完成所需的時間?
  6. 任務(wù)的生效時間和失效時間。

這些都是產(chǎn)品經(jīng)理需要在研發(fā)之前把控的信息。這些信息需要業(yè)務(wù)方提供,由產(chǎn)品經(jīng)理來衡量是否可以提供封版期間禁用任務(wù)的白名單權(quán)限。一般這種批量禁用任務(wù)的情況都是業(yè)務(wù)方為了保證高級別任務(wù)的穩(wěn)定。所以產(chǎn)品應(yīng)該做好把控,做到靈活應(yīng)對,即不影響業(yè)務(wù)穩(wěn)定,又快速解決業(yè)務(wù)面臨的問題。

2)優(yōu)先保障高級別任務(wù)平穩(wěn)運行

同一隊列中運行的多種級別任務(wù)會爭搶資源,如果在線上核心數(shù)據(jù)出現(xiàn)問題需快速恢復(fù)、大促活動產(chǎn)生極大數(shù)據(jù)量等應(yīng)急場景下,需優(yōu)先保障高級別任務(wù)平穩(wěn)運行。這時需要啟動一鍵推遲功能,下面介紹一下一鍵推遲功能:

  1. 點擊“推遲”,導(dǎo)入需推遲的任務(wù)id,填寫推遲時長及自動恢復(fù)時間;
  2. 發(fā)起審批流程,審批通過后,這些任務(wù)推遲成功,系統(tǒng)發(fā)郵件給當(dāng)前任務(wù)及下一層任務(wù)的負(fù)責(zé)人;
  3. 在推遲后,還未恢復(fù)前,可”繼續(xù)推遲“,點擊繼續(xù)推遲,也要發(fā)起審批,審批通過后,繼續(xù)推遲任務(wù)成功,系統(tǒng)發(fā)郵件給當(dāng)前任務(wù)及下一層任務(wù)的負(fù)責(zé)人;
  4. 到達(dá)自動恢復(fù)時間后,推遲的任務(wù)自動恢復(fù)到原始的計劃執(zhí)行時間,5.如果還未到達(dá)自動恢復(fù)時間時,也可以點擊”恢復(fù)“,任務(wù)提前恢復(fù)到原始的計劃執(zhí)行時間。

3)值班保障

針對任務(wù)調(diào)度的保障策略和大促期間的緊急事項如果用戶有疑問,提供交流群群答疑并且每日安排固定的值班人員進(jìn)行答疑。對于用戶的咨詢做到及時回復(fù),讓用戶充分了解任務(wù)調(diào)度的保障策略

在618期間,產(chǎn)品經(jīng)理會在11點就開始堅守在電腦前,目不轉(zhuǎn)睛的各自盯住顯示器,一旦某臺機器、某個業(yè)務(wù)、某條鏈路出現(xiàn)一點點的波動,他們都能第一時間看到,流量上漲、積壓、抖動,出現(xiàn)問題及時跟進(jìn),推動解決,及時報備問題。

三、事后:復(fù)盤、總結(jié)

因為調(diào)度平臺上跑著很多離線任務(wù),所以到6月19號的凌晨才會解除平臺的封版,大促結(jié)束之后要對出現(xiàn)的問題進(jìn)行復(fù)盤、總結(jié)、歸檔。

  1. 明確備戰(zhàn)的節(jié)奏:首先明確公司整體的備戰(zhàn)節(jié)奏,跟隨大節(jié)奏進(jìn)行壓測、故障預(yù)演、災(zāi)備演練;
  2. 建立良好的溝通機制:提前與業(yè)務(wù)進(jìn)行溝通,收集業(yè)務(wù)需求和業(yè)務(wù)等級有無變更情況。做到及時響應(yīng)靈活應(yīng)變。
  3. 提前預(yù)估業(yè)務(wù)峰值情況:搜集每年大促業(yè)務(wù)的峰值情況,進(jìn)行數(shù)據(jù)對比,做回歸分析,預(yù)測業(yè)務(wù)今年的情況,可以做到合理利用資源。
  4. 制定更完善的管控策略:從用戶的應(yīng)用場景出發(fā),預(yù)想到每個場景會遇到的問題及風(fēng)險,比如創(chuàng)建任務(wù)、拷貝任務(wù)、任務(wù)啟用、實例重跑、修改任務(wù)運行規(guī)則等。

對于電商來說618意義非凡,雖然作為偏底層的產(chǎn)品經(jīng)理,離618業(yè)務(wù)較遠(yuǎn),但是也在用行動保障大促平滑穩(wěn)定。

 

本文由 @斗羅魂靈 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!