產(chǎn)品解決方案:數(shù)據(jù)自助分析平臺

0 評論 20426 瀏覽 114 收藏 9 分鐘

數(shù)據(jù)質(zhì)量是自助分析平臺中不可或缺的一個(gè)環(huán)節(jié),如何保證數(shù)據(jù)準(zhǔn)確性和及時(shí)性大多數(shù)時(shí)候都是開發(fā)需要考慮的一個(gè)重要問題。

大部分公司選擇Tableau作為可視化分析工具,原因都是基于其優(yōu)秀的交互、快速的可視化分析,相比起傳統(tǒng)的BI系統(tǒng),它的短平快更得互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師青睞。但經(jīng)過一段時(shí)間的使用及功能探究,我們發(fā)現(xiàn)tableau其實(shí)并不局限于“分析師工具”應(yīng)用,只要完善了其中的權(quán)限功能,tableau大有成為企業(yè)級報(bào)表應(yīng)用的潛力。

一、產(chǎn)品架構(gòu)&流程設(shè)計(jì)

一開始公司購買的tableau軟件的初衷是服務(wù)于運(yùn)營和數(shù)據(jù)分析人員,因此客戶端賬號的80%都直接分發(fā)給運(yùn)營部門使用;技術(shù)部主要基于tableauserver服務(wù)器的穩(wěn)定性、權(quán)限管控等方面進(jìn)行簡單的二次開發(fā),而二次開發(fā)也僅僅只是把報(bào)表頁面嵌入到系統(tǒng)當(dāng)中,通過菜單訪問控制、url傳參等方式實(shí)現(xiàn)權(quán)限控制。

產(chǎn)品架構(gòu)圖如下:

可視化分析——Tableau數(shù)據(jù)權(quán)限方案

  • 數(shù)據(jù)層主要是大數(shù)據(jù)平臺+部門數(shù)倉,通過大量基礎(chǔ)數(shù)據(jù)落地+數(shù)據(jù)權(quán)限隔離,讓業(yè)務(wù)部門能夠更高效的獲取基礎(chǔ)數(shù)據(jù)進(jìn)行分析;
  • 邏輯層是tableau+presto,主要是提供報(bào)表制作的服務(wù)和高性能數(shù)據(jù)引擎;
  • 展現(xiàn)層是tableau可視化報(bào)表+可視化的檢索頁面,檢索頁面服務(wù)于分析師——快速獲取數(shù)據(jù)并進(jìn)行分析;tableau可視化報(bào)表服務(wù)于業(yè)務(wù)人員——分析師將分析結(jié)果落地到tableau報(bào)表中,供運(yùn)營人員日常分析。

業(yè)務(wù)流程如下:

二、權(quán)限方案

確定了產(chǎn)品設(shè)計(jì)方案和流程之后,重點(diǎn)需要攻克的是權(quán)限問題。

由于tableau自身比較封閉,幾乎沒有二次開發(fā)的可能,因此在實(shí)現(xiàn)行級數(shù)據(jù)權(quán)限的過程中完全依賴于Tableau現(xiàn)有功能進(jìn)行挖掘。

經(jīng)過一段時(shí)間的使用研究,我們總結(jié)了幾套在tableau中可用的行級數(shù)據(jù)權(quán)限方案。

第一種方案:通過url傳參,將需要控制的權(quán)限類型作為參數(shù)帶入可視化報(bào)表url參數(shù)中

1. 在嵌入可視化報(bào)表的系統(tǒng)中開發(fā)一個(gè)小功能,實(shí)現(xiàn)報(bào)表發(fā)布時(shí)傳入指定參數(shù),如:配置網(wǎng)站權(quán)限,則參數(shù)會傳入website_id_p=XXX。

2. 報(bào)表開發(fā)過程中需要用到事實(shí)表中的網(wǎng)站website_id字段,由于用來傳參的字段不能在工作表的篩選器中直接用,傳參和篩選用同一個(gè)字段會有沖突,因此會copy一個(gè)website_id生成website_id_p的字段用于傳參。

可視化分析——Tableau數(shù)據(jù)權(quán)限方案

3. 顯示篩選器,并將篩選器設(shè)置為“僅相關(guān)值”。

可視化分析——Tableau數(shù)據(jù)權(quán)限方案

4. 發(fā)布到server后就可以在server端試驗(yàn)數(shù)據(jù)權(quán)限是否生效。

以上這種方案實(shí)現(xiàn)起來最簡單,也是官方推薦的方案,并且數(shù)據(jù)可以進(jìn)行正常提取。但是也存在一個(gè)很致命的問題:因?yàn)槭峭ㄟ^url傳參,因此能夠傳入的參數(shù)是受瀏覽器限制的,市面上主流的瀏覽器支持傳入的url長度都不超過3000個(gè)字符,比如谷歌瀏覽器。但是業(yè)務(wù)現(xiàn)狀是,超過3000字符的權(quán)限類型有很多,該方案并不能支撐所有業(yè)務(wù)場景。

第二種方案:將用戶ID作為參數(shù)傳到url中,關(guān)聯(lián)權(quán)限表進(jìn)行控制

  1. 編寫自定義SQL創(chuàng)建事實(shí)表、權(quán)限表(這里舉的例子使用了兩個(gè)權(quán)限類型,因此創(chuàng)建了兩個(gè)權(quán)限表1和2),并使用內(nèi)關(guān)聯(lián);

可視化分析——Tableau數(shù)據(jù)權(quán)限方案

2. 創(chuàng)建一個(gè)名為user_id的參數(shù),分別在兩個(gè)權(quán)限表中作為參數(shù)插入(該參數(shù)是作為URL傳用戶ID時(shí)進(jìn)行權(quán)限過濾的依據(jù));

可視化分析——Tableau數(shù)據(jù)權(quán)限方案

3. 利用這個(gè)數(shù)據(jù)源開發(fā)可視化報(bào)表并發(fā)布;

用戶ID傳參的方案可以完美實(shí)現(xiàn)多維度,多數(shù)據(jù)權(quán)限類型的可視化報(bào)表開發(fā),并且可以與第一種URL傳參的方式共存(如:url中既傳user_id,又傳website_id),基本可以實(shí)現(xiàn)業(yè)務(wù)部門對于行級數(shù)據(jù)權(quán)限控制的所有要求。方案也有缺陷,由于是在數(shù)據(jù)源中就寫入?yún)?shù),因此無法做數(shù)據(jù)提?。ㄌ崛〉慕Y(jié)果為空),可視化報(bào)表的查詢效率完全取決于直連數(shù)據(jù)庫的查詢效率。

注:作為運(yùn)營、數(shù)據(jù)分析師的可視化分析工具,tableau的分析效率高、學(xué)習(xí)成本低,也是目前市場上大部分?jǐn)?shù)據(jù)分析師必備的分析工具,因此引入該工具進(jìn)來之后業(yè)務(wù)部門的推廣應(yīng)用比想象中的要快,這也是當(dāng)初選擇tableau的主要原因。在解決了行級數(shù)據(jù)權(quán)限的問題之后,tableau甚至可以成為企業(yè)級可視化報(bào)表應(yīng)用。

對于數(shù)據(jù)產(chǎn)品經(jīng)理來說,這樣一款優(yōu)秀的第三方工具可以作為公司在數(shù)據(jù)信息化建設(shè)過程中的選擇之一,而不一定要重復(fù)造輪子。

三、關(guān)于自助分析產(chǎn)品體系的其他建議

1. 關(guān)于大數(shù)據(jù)量檢索分析的優(yōu)化

在海量數(shù)據(jù)(特別是埋點(diǎn)數(shù)據(jù))的查詢的時(shí)候,如果讓用戶使用HUE直接連hive進(jìn)行查詢,查詢效率往往讓業(yè)務(wù)人員崩潰,最終選擇棄用我們的產(chǎn)品。因此,如何讓分析師快速地進(jìn)行數(shù)據(jù)檢索,從而提高數(shù)據(jù)分析效率是一定要考慮的。

技術(shù)人員在進(jìn)行高性能數(shù)據(jù)庫選型的時(shí)候考慮了很多技術(shù)方案:Impala、presto、spark等等……這

些技術(shù)方案本身并不重要,產(chǎn)品經(jīng)理在這其中的角色是針對整體的產(chǎn)品體系建設(shè)提出要求,例如:

1. 高性能數(shù)據(jù)庫在做XXX復(fù)雜查詢的時(shí)候要控制在多少秒內(nèi);

2. 要支持tableau直連到這個(gè)高性能數(shù)據(jù)庫上;

3.? 支持?jǐn)?shù)據(jù)權(quán)限的隔離,最好是能做到行級。

2. 關(guān)于數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是自助分析平臺中不可或缺的一個(gè)環(huán)節(jié),如何保證數(shù)據(jù)準(zhǔn)確性和及時(shí)性大多數(shù)時(shí)候都是開發(fā)需要考慮的問題,但是在產(chǎn)品設(shè)計(jì)過程中如何給業(yè)務(wù)“承諾”數(shù)據(jù)質(zhì)量也是一個(gè)很重要的命題。

我們的自助分析平臺在需求設(shè)計(jì)中就采用了最簡單粗暴的方式,用部門數(shù)倉跟大數(shù)據(jù)平臺的數(shù)據(jù)條數(shù)進(jìn)行核對,并增加異常告警。雖然這個(gè)方案還有很大的優(yōu)化空間,但減少了部分排查問題的難度、也增加了分析師對數(shù)據(jù)質(zhì)量的信心。

 

本文由 @LinKiD 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!