搞了三年,再看數(shù)據(jù)中臺的價值與解決方案

4 評論 16554 瀏覽 47 收藏 18 分鐘

編輯導(dǎo)語:數(shù)據(jù)中臺能夠為企業(yè)收集數(shù)據(jù)信息,企業(yè)根據(jù)信息而制定方案。但是如何將數(shù)據(jù)中臺的價值發(fā)揮最高,想必這是一個頭疼的問題。本篇文章,作者搞了多年的數(shù)據(jù)中臺,為大家提供一些思路。

一、數(shù)字化轉(zhuǎn)型面臨的痛點問題

1. 指標(biāo)口徑不統(tǒng)一

產(chǎn)品部門和財務(wù)部門一起開會給老板匯報,APP下單用戶數(shù)產(chǎn)品1021W,財務(wù)1000W,產(chǎn)品說我的數(shù)據(jù)是數(shù)據(jù)團(tuán)隊出的,財務(wù)說我的也是,那數(shù)據(jù)為什么不一致呢?原因數(shù)據(jù)開發(fā)A給運營出的報表,按照業(yè)務(wù)的口徑以設(shè)備ID去重,數(shù)據(jù)開發(fā)B,給財務(wù)出的報表是按照userID(注冊會員id)統(tǒng)計,存多設(shè)備登錄的情況。

2. 數(shù)據(jù)質(zhì)量差

指標(biāo)表現(xiàn)異常,業(yè)務(wù)第一反應(yīng)就是“是不是數(shù)據(jù)不準(zhǔn)啊”,這時作為數(shù)據(jù)部門如何能夠有底氣來反駁這種DISS呢?數(shù)據(jù)業(yè)務(wù)系統(tǒng)同步到數(shù)倉,ETL加工,再輸出到報表應(yīng)用,會經(jīng)過多個步驟,每一個步驟都有可能會出現(xiàn)任務(wù)的異常、延遲以及人為的bug,監(jiān)控覆蓋足夠健全,業(yè)務(wù)反饋問題時,數(shù)據(jù)開發(fā)就可以自信的說,今天數(shù)據(jù)無異常(沒有收到報警),而不是我先確認(rèn)下。

3. 數(shù)據(jù)重復(fù)建設(shè)

缺少統(tǒng)一的數(shù)倉建設(shè)和管理規(guī)范,CaseByCase地響應(yīng)業(yè)務(wù)需求,往往會導(dǎo)致數(shù)據(jù)的重復(fù)建設(shè),例如,數(shù)據(jù)開發(fā)A接到產(chǎn)品的大盤流量報表需求,直接基于ODS的明細(xì)數(shù)據(jù)進(jìn)行ETL,加工出自己的為了滿足這一報表需求的APP層表,數(shù)據(jù)開發(fā)B,接到會員營銷的需求,報表指標(biāo)不盡相同,小A的APP層表無法直接使用,于是自己又加工了新的數(shù)據(jù)表,由此,導(dǎo)致相同指標(biāo)多個模型出現(xiàn),但又無法復(fù)用,造成重復(fù)建設(shè)。

4. 數(shù)據(jù)找不到

業(yè)務(wù)發(fā)展加上數(shù)據(jù)的重復(fù)建設(shè),數(shù)據(jù)表的數(shù)量在10W+,缺少工具的指引,尤其是新用戶很難找到需要的數(shù)據(jù)在哪個表里,處理邏輯是不是自己需要的。

5. 數(shù)據(jù)成本增長快

隨著業(yè)務(wù)需求發(fā)展,數(shù)據(jù)處理所需要的存儲和計算成本也線性或指數(shù)增長,對于DAU千萬級的互聯(lián)網(wǎng)公司,每個月大數(shù)據(jù)集群的資源成本可能也在百萬~千萬級,是真正的成本中心了。往往一線數(shù)據(jù)開發(fā)很多只關(guān)注新增業(yè)務(wù),不去梳理歷史任務(wù),或者一些低效的SQL任務(wù)占據(jù)了大量的資源。

6. 數(shù)據(jù)報表開發(fā)周期長

定制化的數(shù)據(jù)可視化報表開發(fā)需要數(shù)據(jù)開發(fā)、接口開發(fā)、前端開發(fā)、產(chǎn)品迭代、活動上線節(jié)奏非常快,都需要對應(yīng)的報表監(jiān)控支持,單個報表的開發(fā)周期往往在1~2周,對開發(fā)資源的依賴導(dǎo)致需求響應(yīng)周期長,很多時候報表上線了,活動結(jié)束了。

7. 數(shù)據(jù)需求響應(yīng)慢

對于無SQL的業(yè)務(wù)人員很多探索性的數(shù)據(jù)分析依賴于數(shù)據(jù)開發(fā)的SQL取數(shù),一般SQL取數(shù)都是由數(shù)倉兼職進(jìn)行,時間排期就有限,只能按照提需時間或者緊急需求的申請通道進(jìn)行處理,臨時取數(shù)的時效性要求更高,經(jīng)常出現(xiàn)數(shù)據(jù)輸出了,業(yè)務(wù)意見拍腦袋做完決策了。可能有人問可不可以安排全職取數(shù),對于有個人追求的程序員,一直做SQL取數(shù),估計很快就要離職了。

8. 數(shù)據(jù)服務(wù)難追蹤

數(shù)據(jù)部門會輸出很多的API接口,由于歷史久遠(yuǎn)文檔不完善加上業(yè)務(wù)不斷調(diào)整變化,導(dǎo)致接口和應(yīng)用鏈路斷層,接口出問題只能由業(yè)務(wù)反饋后處理。梳理出流量小的接口要做下線,卻找不到應(yīng)用端的人確認(rèn),只能先下線看下,有人反饋再處理。

9. 數(shù)據(jù)輸出效率影響運營頻率

精細(xì)化運營背景下,用戶運營每個營銷場景需要最精準(zhǔn)的確定目標(biāo)人群,比如會員生日關(guān)懷、迪士尼目標(biāo)用戶群體投放等,業(yè)務(wù)需要先找數(shù)據(jù)部門獲取目標(biāo)用戶的id信息,再進(jìn)行投放,數(shù)據(jù)部門的響應(yīng)周期和效率制約了運營活動的投放頻次,即數(shù)據(jù)每周可以處理3~7次人群調(diào)取,那運營活動肯定不能超過這個頻率。

二、數(shù)據(jù)中臺為什么成為企業(yè)推崇的“新思路”

1. 數(shù)據(jù)中臺的核心思想

關(guān)于數(shù)據(jù)中臺的定義和概念,已經(jīng)被講爛了,結(jié)合近三年的數(shù)據(jù)中臺實踐,總結(jié)一下就是“讓數(shù)據(jù)更快、更省地用起來”的一種思想、架構(gòu)。也就是,數(shù)據(jù)中臺所做的一切,最終的目標(biāo)都是數(shù)據(jù)價值的挖掘和應(yīng)用輸出,為了達(dá)到這一目標(biāo),涉及數(shù)據(jù)的采、存、管、治、用各個環(huán)節(jié)和流程,可以用來“降本增效”的產(chǎn)品,都?xì)w屬于數(shù)據(jù)中臺產(chǎn)品體系。

2. 數(shù)據(jù)中臺與數(shù)據(jù)平臺、數(shù)據(jù)倉庫的關(guān)系

在數(shù)據(jù)中臺概念清晰之前,各個互聯(lián)網(wǎng)公司其實也都做了很多的基礎(chǔ)建設(shè)工作,只是沒有明確地定義為數(shù)據(jù)中臺而已。

每個公司都在實踐中尋找解決數(shù)據(jù)應(yīng)用實踐方法,例如構(gòu)建指標(biāo)體系解決指標(biāo)口徑不一致的問題;建設(shè)自助取數(shù)工具,業(yè)務(wù)自助取數(shù)不求人,開發(fā)人力釋放專注于數(shù)倉模型建設(shè);開發(fā)配置化的BI可視化產(chǎn)品,減少可視化報表對接口開發(fā)、前端開發(fā)人力的依賴;建設(shè)精準(zhǔn)營銷(DMP)平臺,業(yè)務(wù)自助圈選目標(biāo)用戶進(jìn)行精準(zhǔn)觸達(dá),提升運營活動頻率等。

所以,個人理解,數(shù)據(jù)中臺概念的出現(xiàn),只是提供了一套完整的解決方案和思想,把原來的不成體系的“野路子”,扣上“中臺”的帽子后,成了有方法論、戰(zhàn)略的指引和支撐正規(guī)軍了。

可以把數(shù)據(jù)中臺類比成汽車工廠,如果發(fā)動機、輪胎等零配件已經(jīng)生產(chǎn)完畢,可以很快組裝出一輛汽車。而Hadoop生態(tài),集群建設(shè),就像水電煤等基礎(chǔ)設(shè)施,提供工廠運行所需能源支持,大數(shù)據(jù)平臺,數(shù)據(jù)開發(fā)工具就像是機床設(shè)備,提供制造零配件的工具能力,而數(shù)據(jù)倉庫的建設(shè),則像是用機床加工好各自零配件,并且提供快捷的倉庫索引目錄,能夠最短時間找到所需配件。

三、數(shù)據(jù)中臺需要具備的核心能力與產(chǎn)品架構(gòu)

1. 數(shù)據(jù)中臺的核心能力

數(shù)據(jù)匯聚:將異構(gòu)數(shù)據(jù)源通過源和目標(biāo)參數(shù)配置實現(xiàn)數(shù)據(jù)入湖、入倉、以及存儲介質(zhì)的轉(zhuǎn)換、降低人肉腳本處理帶來的風(fēng)險和維護(hù)成本。構(gòu)建統(tǒng)一的數(shù)據(jù)集散中心,打破數(shù)據(jù)孤島。

資產(chǎn)沉淀:將數(shù)據(jù)提純加工,形成可快速使用的數(shù)據(jù)模型,建立完善的數(shù)據(jù)共享機制與安全管控流程,構(gòu)建數(shù)據(jù)復(fù)用能力。同時需要對資產(chǎn)進(jìn)行常態(tài)化、周期性的質(zhì)量管控與治理。

產(chǎn)品化能力:數(shù)據(jù)采集、資產(chǎn)管理、數(shù)據(jù)應(yīng)用流程的平臺化、配置化,基于工具實現(xiàn)數(shù)據(jù)的快速流轉(zhuǎn),提升數(shù)據(jù)輸出的效率。

業(yè)務(wù)賦能:數(shù)據(jù)驅(qū)動決策、為產(chǎn)品智能化、運營精細(xì)化賦能。一是賦能效率的提升,二是賦能過程的數(shù)據(jù)資產(chǎn)管控。

2. 數(shù)據(jù)中臺產(chǎn)品架構(gòu)

(1)數(shù)據(jù)應(yīng)用效率問題

自助BI與可視化分析:以產(chǎn)品化的方式降低數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用的成本,解決數(shù)據(jù)響應(yīng)周期長、開發(fā)成本高、運營效率低問題。

能力要求:集成數(shù)據(jù)建模、自助分析、數(shù)據(jù)可視化、數(shù)據(jù)治理、智能分析的一站式數(shù)智化決策分析平臺,數(shù)據(jù)開發(fā)專注數(shù)倉模型建設(shè),提供健全的模型、完善的資產(chǎn)元數(shù)據(jù)信息后,業(yè)務(wù)拖拽式、可視化的數(shù)據(jù)查詢和分析,不需要數(shù)據(jù)開發(fā)介入。針對需要周期性使用的數(shù)據(jù),可以保存成可視化Dashboard,自助進(jìn)行可視化報表減少,釋放接口和前端開發(fā)人力。比如:QuickBI、觀遠(yuǎn)、帆軟BI、tableau等。

智能營銷平臺(CDP):基于大數(shù)據(jù)計算和數(shù)據(jù)挖掘技術(shù),構(gòu)建用戶畫像標(biāo)簽體系,用戶圈選、精細(xì)化分層,進(jìn)行差異化運營和營銷觸達(dá),提升運營ROI。業(yè)務(wù)同學(xué)可基于平臺實現(xiàn)從人群圈選、場景構(gòu)建、觸達(dá)投放、效果回收的閉環(huán),同時,基于算法挖掘標(biāo)簽及模型推薦的人群組合,從基于人的經(jīng)驗運營,到基于大數(shù)據(jù)算法推薦的智能運營。

(2)數(shù)據(jù)資產(chǎn)建設(shè)與治理問題

21年云棲大會,阿里云數(shù)據(jù)中臺負(fù)責(zé)人強調(diào),要在場景的驅(qū)動下,把數(shù)據(jù)中臺的資產(chǎn)模塊做的更厚實。

目標(biāo):提供數(shù)據(jù)資產(chǎn)建設(shè)、資產(chǎn)管理與治理的完整產(chǎn)品方案,通過數(shù)據(jù)資產(chǎn)化管理和共享流程提高數(shù)據(jù)復(fù)用性,減少重復(fù)開發(fā)成本,基于完善的監(jiān)控覆蓋保障數(shù)據(jù)質(zhì)量,并周期性的盤點、治理資產(chǎn),達(dá)到降本的目標(biāo)。

數(shù)據(jù)地圖:通過業(yè)務(wù)域、主題、標(biāo)簽、字段元數(shù)據(jù)等信息,幫助用戶快速檢索到目標(biāo)數(shù)據(jù),基于條件過濾或自助搜索,“逛數(shù)據(jù)”,“用數(shù)據(jù)”。

數(shù)據(jù)質(zhì)量監(jiān)控:圍繞“準(zhǔn)確性、一致性、及時性、唯一性、完整性”等標(biāo)準(zhǔn)維度,提供配置化的質(zhì)量監(jiān)控規(guī)則,對數(shù)據(jù)表數(shù)據(jù)量、字段值進(jìn)行監(jiān)控覆蓋,從源頭及時發(fā)現(xiàn)數(shù)據(jù)問題并加以干預(yù),保障數(shù)據(jù)質(zhì)量。

數(shù)據(jù)血緣:數(shù)據(jù)入湖到輸出應(yīng)用經(jīng)過多個環(huán)節(jié),上游數(shù)據(jù)問題如何快速通知下游,下游數(shù)據(jù)邏輯排查如何向上追溯,以及數(shù)據(jù)治理表或路徑下線,如何評估下游的影響并通知,都依賴于全鏈路數(shù)據(jù)血緣的建設(shè)??梢哉f,完善的血緣功能,可以極大提高數(shù)據(jù)開發(fā)的工作效率。

成本優(yōu)化:數(shù)據(jù)有自己的生命周期,比如活動期間的數(shù)據(jù)監(jiān)控報表,活動下線后,報表可以下線釋放資源。成本優(yōu)化提供高耗任務(wù)、小文件、冷數(shù)據(jù)等不同治理維度的指標(biāo),及治理目標(biāo),從資產(chǎn)健康度評估維度,指導(dǎo)數(shù)據(jù)開發(fā)人員主動進(jìn)行成本優(yōu)化、數(shù)據(jù)治理,系統(tǒng)層面具備治理目標(biāo)檢測、一鍵治理、數(shù)據(jù)回收、徹底刪除等治理功能,并且可以基于固化的治理規(guī)則,進(jìn)行系統(tǒng)自動化治理。

(3)數(shù)據(jù)開發(fā)流程的效率問題

目標(biāo):提供異構(gòu)數(shù)據(jù)源數(shù)據(jù)同步可視化工具,通過源和目標(biāo)參數(shù)配置實現(xiàn)數(shù)據(jù)入湖、入倉,以及存儲介質(zhì)的轉(zhuǎn)換,降低人肉腳本處理帶來的風(fēng)險和維護(hù)成本。建設(shè)統(tǒng)一的數(shù)據(jù)開發(fā)平臺,數(shù)據(jù)開發(fā)只需要關(guān)注數(shù)據(jù)處理邏輯,無需關(guān)注集群資源、任務(wù)調(diào)度,通過配置化的方式進(jìn)行依賴關(guān)系配置,及任務(wù)運行周期,快速進(jìn)行數(shù)據(jù)回溯、任務(wù)重啟、停止。

數(shù)據(jù)集成:業(yè)務(wù)數(shù)據(jù)庫、操作日志、狀態(tài)變更消息等數(shù)據(jù)源接入數(shù)據(jù)中心,如Biglog同步、MySQL庫表訂閱、Kakfa數(shù)據(jù)落HDFS等。數(shù)據(jù)經(jīng)過實時或離線ETL后,數(shù)據(jù)集成再將數(shù)據(jù)輸入CK、Hbase、ES等供業(yè)務(wù)端應(yīng)用。

離線開發(fā)平臺:批數(shù)據(jù)處理,一般為T+1或小時級的準(zhǔn)實時數(shù)據(jù),包括任務(wù)邏輯處理、依賴配置、調(diào)度配置、任務(wù)運維等功能。

實時開發(fā)平臺:流數(shù)據(jù)處理,以FlinkSQL、StreamSQL為主要計算處理框架,實時處理消息隊列等各種流式數(shù)據(jù),輸出實時報表、實時接口推薦等服務(wù)隨著批流技術(shù)組件的發(fā)展,批流一體化開發(fā)平臺的建設(shè)也陸續(xù)在實踐中。

(4) 數(shù)據(jù)服務(wù)快速輸出

有人也把數(shù)據(jù)中臺稱之為DAAS,即數(shù)據(jù)即服務(wù),數(shù)據(jù)如何快速輸出業(yè)務(wù)端,賦能產(chǎn)品創(chuàng)新。API服務(wù)統(tǒng)一管理,建立完善的應(yīng)用血緣關(guān)系,提供通用接口的配置化生成能力,降低對Java開發(fā)的依賴。

數(shù)據(jù)服務(wù)管理平臺:數(shù)據(jù)中臺思想下,數(shù)據(jù)服務(wù)輸出是應(yīng)用輸出的最主要形式,數(shù)據(jù)服務(wù)管理平臺一方面要具備將數(shù)據(jù)資產(chǎn)自助配置化輸出的能力,即數(shù)倉清洗好的數(shù)據(jù)模型,數(shù)據(jù)開發(fā)或業(yè)務(wù)人員可以通過入?yún)?、出參的可視化配置生成API接口,不需要接口開發(fā)介入。同時也要把API資產(chǎn)化管理,API接口文檔、應(yīng)用調(diào)用情況做到可追蹤、可監(jiān)控。

四、數(shù)據(jù)中臺的成熟度評估

如何評價數(shù)據(jù)中臺建設(shè)的怎么樣了呢?可以數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)平臺與架構(gòu)、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)治理、數(shù)據(jù)產(chǎn)品化、數(shù)據(jù)服務(wù)化、中臺產(chǎn)品運營等7個維度,進(jìn)行量化打分。

五、總結(jié)

數(shù)據(jù)中臺不是產(chǎn)品,而是為了讓數(shù)據(jù)更快、更省用起來的一些列產(chǎn)品組件而成的數(shù)據(jù)產(chǎn)品矩陣與解決方案。企業(yè)在數(shù)據(jù)中臺解決方案規(guī)劃時,要基于目前數(shù)據(jù)在采、存、管、治、用各個環(huán)節(jié)的痛點,進(jìn)行針對性的降本提效建設(shè)。數(shù)據(jù)中臺是不是YYDS,能解決業(yè)務(wù)痛點的,才是王道,說不定,幾年之后又出現(xiàn)了新的名詞,現(xiàn)有的產(chǎn)品體系是否可以更快的升級適應(yīng)呢。

#專欄作家#

數(shù)據(jù)干飯人,微信號公眾號:數(shù)據(jù)干飯人,人人都是產(chǎn)品經(jīng)理專欄作家。專注數(shù)據(jù)中臺產(chǎn)品領(lǐng)域,覆蓋開發(fā)套件,數(shù)據(jù)資產(chǎn)與數(shù)據(jù)治理,BI與數(shù)據(jù)可視化,精準(zhǔn)營銷平臺等數(shù)據(jù)產(chǎn)品。擅長大數(shù)據(jù)解決方案規(guī)劃與產(chǎn)品方案設(shè)計。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 少有的精彩

    來自北京 回復(fù)
  2. 特別棒的文章,謝謝分享!受益頗多!

    來自浙江 回復(fù)
    1. 謝謝,歡迎溝通交流

      來自江蘇 回復(fù)
  3. 希望日后多些案例分享,干貨多就是趣味性不高。

    來自廣東 回復(fù)