OLAP聯(lián)機分析:數(shù)據(jù)產(chǎn)品經(jīng)理必備技能
OLAP聯(lián)機分析常用來搭建業(yè)務(wù)數(shù)據(jù)分析平臺,通過本文你會發(fā)現(xiàn)OLAP聯(lián)機分析并沒有想象的那么復(fù)雜。
說到數(shù)據(jù)分析,OLAP大概是最常見的選擇。因此,作為一名數(shù)據(jù)產(chǎn)品經(jīng)理,要想搭建一個業(yè)務(wù)的數(shù)據(jù)分析平臺,OLAP是你不得不掌握的必備技能。
OLAP(OnLine Analysis Processing ,聯(lián)機分析處理 ) 是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。在實際的商業(yè)分析中,OLAP聯(lián)機分析更多的是指對數(shù)據(jù)分析的一種解決方案。
OLAP聯(lián)機分析首先是把數(shù)據(jù)預(yù)處理成數(shù)據(jù)立方(Cube),并把有可能的匯總都預(yù)先算出來(即預(yù)聚合處理),然后在用戶選擇多維度匯總時,在預(yù)先的計算出來的數(shù)據(jù)基礎(chǔ)上很快地計算出用戶想要的結(jié)果,從而可以更好更快地支持極大數(shù)據(jù)量的及時分析。
OLAP聯(lián)機分析最基本的工作就是對數(shù)據(jù)方(Cube)的操作,因此,首先讓我們了解數(shù)據(jù)方(Cube)的維度層次劃分和基本操作,并在此基礎(chǔ)上,掌握應(yīng)該從哪些方面考慮數(shù)據(jù)并構(gòu)建出業(yè)務(wù)模型。為了方便大家的閱讀理解,下面所有的舉例分析都是基于圖一數(shù)據(jù)方(Cube)的基礎(chǔ)上進行的。
圖一 ?數(shù)據(jù)方(Cube)
OLAP聯(lián)機分析是從多維信息、多層次信息的角度,針對特定問題進行數(shù)據(jù)的匯總分析。因此,站在數(shù)據(jù)面的角度考慮,數(shù)據(jù)源需要滿足如下層次劃分:
- 維度(Dimension):是用戶觀察數(shù)據(jù)的特定角度,是問題的一類屬性,屬性集合構(gòu)成一個維度(時間維、地理維等)。舉個例子:圖一數(shù)據(jù)方(Cube)中的季度維度和城市維度。
- 維度的層次(Level):用戶觀察數(shù)據(jù)的某個特定角度(即某個維度)還可能存在細節(jié)程度不同的各個描述方面(時間維包括日期、月份、季度、年)。舉個例子:圖一數(shù)據(jù)方(Cube)中的季度維度還可以進一步劃分為月份的維度,月度還可以在日期的細節(jié)粒度進行描述。
- 維度的成員(Member):即維度的一個取值,是數(shù)據(jù)項在某個維度中位置的描述,如“某年某月某日”是在時間維度上的位置描述。舉個例子:2016年一季度是一個維度的成員。
- 度量(Measure):多維數(shù)組的取值。舉個例子:機票在2016年一季度上海市的出票量。
OLAP聯(lián)機分析是在基于數(shù)據(jù)方(Cube)的基礎(chǔ)上進行操作的。因此,站在分析的角度上,數(shù)據(jù)源需提供支持鉆取(Drill-up和Drill-down)、切片(Slice)和切塊(Dice)以及旋轉(zhuǎn)(Pivot)等操作。
- 鉆取:改變維的層次,變換分析的粒度。它包括向下鉆取(Drill-down)、向上鉆取(Drill-up)。
向上鉆取是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù)。舉個例子:將北京、上海、廣州等三個省市的機票出票量進行匯總來查看北上廣一線城市的出票情況。
而向下鉆取則相反,從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新的維度。舉個例子:將2016第一季度的出票量進行下鉆,查看具體1月、2月、3月三個月的每月的出票量。
- 切片和切塊:在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片,如果有三個或以上,則是切塊。
切片是選定特定的值進行分析,在立方體(Cube)上的感覺就是選定一個維度后進行的平面切分,就像是一刀切。舉個例子:只選擇機票這個票種的銷售數(shù)據(jù),或者2016第一季度的數(shù)據(jù)。
切塊是選擇維度中特定區(qū)間的數(shù)據(jù),或者某批特定值進行分析,在立方體(Cube)上的感覺就是揮幾刀切出一塊。舉個例子:2016第一季度到2016第二季度的銷售數(shù)據(jù)。
- 旋轉(zhuǎn):變換維的方向,即在表格中重新安排維的放置(如行列互換)。舉個例子:圖一數(shù)據(jù)方(Cube)中季度維度和城市維度的旋轉(zhuǎn)互換。
在實現(xiàn)數(shù)據(jù)方(Cube)的過程中,由于業(yè)務(wù)靈活多變,導(dǎo)致了構(gòu)建的業(yè)務(wù)模型隨之經(jīng)常發(fā)生變化,而業(yè)務(wù)維度和量度一旦發(fā)生變化,研發(fā)人員需要把整個Cube(多維立方體)重新定義并生成,數(shù)據(jù)產(chǎn)品經(jīng)理只能在此Cube上進行多維分析,這樣就限制數(shù)據(jù)產(chǎn)品經(jīng)理快速改變問題分析的角度,從而使數(shù)據(jù)分析平臺成為死板的日常報表系統(tǒng)。
為了避免這一情況,數(shù)據(jù)產(chǎn)品經(jīng)理在前期過程中,就需要理解數(shù)據(jù)并且構(gòu)建出符合業(yè)務(wù)的多維數(shù)據(jù)模型,包括:
源數(shù)據(jù)如何拆分到不同字段中?
例如如何把季度拆分到日期的格式,日期date拆分成yyyy-MM-dd這樣的字段格式進行存儲。
哪些字段用于維度?
例如季度、城市、票種等都可以作為維度字段。
哪些字段用于統(tǒng)計指標(biāo)?
例如出票量、銷售額這些都可以作為指標(biāo)進行分析統(tǒng)計使用。
使用什么樣的規(guī)則來對數(shù)據(jù)進行聚合?
例如是進行簡單的匯總,還是要進行一般的加減乘除,又或者更復(fù)雜的規(guī)則進行聚合。
用戶經(jīng)常使用的組合查詢是?
例如經(jīng)常把季度和城市進行組合查詢匯總,這些都需要提前考慮清楚。
排序規(guī)則?
例如經(jīng)常會按照出票量和時間等進行排序。
掌握以上幾點以后,你會發(fā)現(xiàn)一旦多維數(shù)據(jù)模型建成后,OLAP聯(lián)機分析并沒有想象的那么復(fù)雜。大數(shù)據(jù)分析架構(gòu)在這個巨大Cube的支持下,直接把維度和度量的生成交給數(shù)據(jù)產(chǎn)品經(jīng)理 ,由數(shù)據(jù)產(chǎn)品經(jīng)理自己定義好維度和度量之后,Hadoop會將業(yè)務(wù)的維度和度量直接翻譯成MapReduce運行,并最終生成業(yè)務(wù)報表。
本文由 @徐鵬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
專欄作家
一個數(shù)據(jù)人的自留地,公眾號:一個數(shù)據(jù)人的自留地。人人都是產(chǎn)品經(jīng)理專欄作家,《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》作者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
說得好好!收藏!
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓(xùn)練營》終于在起點學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機構(gòu))上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。
課程會從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!
簡潔易懂,干貨