一份全面的企業(yè)數(shù)據(jù)產(chǎn)品選型對比(含數(shù)倉、報表、BI、中臺、數(shù)據(jù)治理)
編輯導(dǎo)語:在如今這個數(shù)據(jù)化時代,數(shù)據(jù)對于個人和企業(yè)來說,其重要性都不可小覷。因此,有不少企業(yè)強化了數(shù)據(jù)工作,加強企業(yè)數(shù)據(jù)建設(shè)。接下來,本文作者整理了一份超全面的企業(yè)數(shù)據(jù)產(chǎn)品的選型對比,希望對大家有所幫助。
前言:
這個從上至下都在強調(diào)數(shù)字化轉(zhuǎn)型的時代,越來越多公司重視數(shù)據(jù),也越來越多的企業(yè)有數(shù)據(jù)建設(shè)的需求。
企業(yè)無論做任何數(shù)據(jù)工作,必然要有一定的信息化基礎(chǔ),也要有數(shù)據(jù)化建設(shè)的基礎(chǔ),少不了數(shù)據(jù)平臺、數(shù)據(jù)應(yīng)用工具,數(shù)據(jù)管理工具等。
關(guān)于企業(yè)數(shù)據(jù)建設(shè)這塊,本人從事了近7年,從技術(shù)到項目管理,做過乙方也做過甲方,也有多年和各乙方廠商打交道的經(jīng)驗,遂來分享選型“內(nèi)幕”。
涉及到的產(chǎn)品有:數(shù)倉、大數(shù)據(jù)平臺、報表、BI、數(shù)據(jù)中臺、數(shù)據(jù)治理等。
一、數(shù)倉
數(shù)據(jù)倉庫算是一個解決方案,視企業(yè)需求有不同架構(gòu)(傳統(tǒng)數(shù)倉、數(shù)據(jù)集市、大數(shù)據(jù)平臺等),架構(gòu)下有很多分層和組件,比起工具更需要架構(gòu)師能力,具體原理就不講了。
關(guān)于數(shù)倉的選型主要涉及:數(shù)據(jù)存儲方案、ETL、還有前端應(yīng)用。
底層的數(shù)據(jù)倉庫服務(wù)器通常是一個關(guān)系數(shù)據(jù)庫系統(tǒng),常用的方案有Oracle、db2、還有g(shù)reenplum、teredata等數(shù)據(jù)倉庫專業(yè)解決方案。
- 傳統(tǒng)的關(guān)系型數(shù)據(jù)庫有:oracle、mysql、DB2。
- 大規(guī)模并行處理數(shù)據(jù)庫:Vertica、Teradata(商業(yè))、Greenplum (開源)。
Teradata老江湖了,銀行業(yè)使用較多,但成本也是真的貴,目前我們做項目較多的是用Greenplum,算是業(yè)界最快和最高性價比的高端數(shù)據(jù)倉庫解決方案,Greenplum是基于PostgreSQL的,于2015年開源。
我知道的國內(nèi)四大行有3家在用,5大物流公司有4家在用,不少公司在從Teradata遷移到GP。
大數(shù)據(jù)平臺主流的是:Hadoop+Hive。這套方案有多通用不用多說了,后面說到的大數(shù)據(jù)平臺廠商也大多基于這個來設(shè)計平臺產(chǎn)品。
ETL工具,kettle、Tablend和Penthao用的較多。
Talend:基于Eclipse,具有很好的擴展性、穩(wěn)定性以及可定制化(可以自己開發(fā)eclipse插件),并且服從Eclipse標準(如文件目錄結(jié)構(gòu)都是程序員熟悉的結(jié)構(gòu))。
Talend具有很好的嵌入性,因為它生成的是Java代碼,這些代碼可以很好的和其他系統(tǒng)結(jié)合在一起,這就要求使用者會java。
Penthao是一個老牌工具,2001年就發(fā)布了第一個版本,Kettle是Penthao整個解決方案的一個組件,用來進行數(shù)據(jù)集成。
它也是基于java開發(fā)的,但是它不要求用戶會java,將底層實現(xiàn)細節(jié)都隱藏了。主要的缺點是和talend相比,它的擴展性較差。由于它很難擴展,所以在社區(qū)中可用的組件就比較少。
前端應(yīng)用工具主要就是報表、BI和數(shù)據(jù)挖掘,前兩者的選型后面會細講。
二、大數(shù)據(jù)平臺
2013年左右,Hadoop體系的不斷完善,標志著大數(shù)據(jù)應(yīng)用場景可以被滿足了。這時候就有前沿的一些企業(yè)開始做大數(shù)據(jù)平臺,廠商特別多,主流的就說3個吧,華為、星環(huán)還有新華三。
這幾年這些廠商也開始往“數(shù)據(jù)中臺”的概念上走。但是畢竟是傳統(tǒng)軟件廠商,有點搞不太懂互聯(lián)網(wǎng)公司提的“數(shù)據(jù)中臺”到底是啥,貌似跟他們做的大數(shù)據(jù)平臺沒啥區(qū)別。
其實所有大數(shù)據(jù)平臺都已經(jīng)具備了“數(shù)據(jù)中臺”的基礎(chǔ)能力,你拿大數(shù)據(jù)平臺和數(shù)據(jù)中臺的產(chǎn)品對一下,其實各種底層架構(gòu)和功能大體都一樣。
對于大部分企業(yè)來講,中臺那一套還是適合互聯(lián)網(wǎng)運營商銀行的“有錢主”、“數(shù)據(jù)巨無霸”,真的中臺更強調(diào)數(shù)據(jù)服務(wù)化,但普通企業(yè)有幾家真的達到這個痛點,還是老老實實做好數(shù)據(jù)化管理吧。
如果你的公司有龐雜的業(yè)務(wù)系統(tǒng),數(shù)據(jù)量達到PB級,海量數(shù)據(jù)的存儲、計算的需求,三個里面選型吧,對比下方案。
三、報表
現(xiàn)在還在做報表的廠商已經(jīng)很少了,國內(nèi)主流的就帆軟finereport和潤乾,起初很火的水晶報表最近也見的少了,還有開源的工具jaspereport也用的挺多。
選型方面,普通小公司,1~2個數(shù)據(jù)工作者,建議采購一個報表平臺就行了,不用急著上BI。
帆軟finereport功能齊全,生態(tài)和服務(wù)很好,招報表工程師也比較好招,價格比其他廠商略貴,品牌和服務(wù)溢價也能理解,畢竟國內(nèi)top1。
潤乾已被帆軟打壓的走低價,號稱一套萬把塊錢,應(yīng)該還會按并發(fā)抬價,還不算服務(wù)和項目實施,乙方可以考慮。
四、BI平臺
BI在零幾年的時候都是國外市場的天下,BO、Brio、Cognos、MSTR等,都是老牌BI廠商,我做純技術(shù)的時候就大量使用他們的產(chǎn)品。東西都不便宜,而且是按產(chǎn)品+用戶雙重收費,不太劃算。
架構(gòu)也是真的復(fù)雜,上手難度對比現(xiàn)在互聯(lián)網(wǎng)時代產(chǎn)品的使用風(fēng)格,也是確實難。
早期國內(nèi)市場只有報表,但凡BI相關(guān)的大單都被國外廠商壟斷,但是后面BI的需求越來越明顯,就和當(dāng)初信息化產(chǎn)業(yè)發(fā)展類似,中小型企業(yè)的需求逐漸顯露。
于是國內(nèi)也就開始發(fā)展BI了,比如帆軟BI、BDP等。東西也不差,價格比國外的美麗多了,而且基本都只是限定服務(wù)器,不限定用戶數(shù),怎么用都OK。
再到后來,tableau、powerBI這倆工具型產(chǎn)品火了起來,有很多擁護的個人使用者,上手確實好用,但是在企業(yè)級應(yīng)用場景,要看性能和并發(fā)成本,就見仁見智了。
不過用BI,就不是2、3個人的事情了,必須得建數(shù)倉,然后再做各種可視化、多維分析等。所以就得有數(shù)倉工程師、ETL工程師、BI工程師等崗位。
當(dāng)然,你要是牛,一個人全兼了也沒問題,很多單位招人也確實要兼做。
中大型公司,有好幾個業(yè)務(wù)系統(tǒng)的,建議采購BI系統(tǒng),什么數(shù)倉、指標體系、固定報表、多維分析、數(shù)據(jù)可視化就都有了。建設(shè)期得多幾個人,建好之后就很舒服了,業(yè)務(wù)固定的話,留兩個人維護就OK了。
五、數(shù)據(jù)中臺
“中臺”的概念就是阿里推廣開的。
阿里從SuperCell學(xué)過來這一套,然后化為阿里內(nèi)功后,再向外推廣?!皵?shù)據(jù)中臺”也是那時候一起推廣出來的,所以主要的廠商都是阿里系的人出來創(chuàng)業(yè)的公司。
袋鼠云、數(shù)瀾、奇點云都是阿里的P9出來創(chuàng)辦的公司,技術(shù)都差不多。
- 袋鼠云是阿里DBA團隊出來的,比較雞賊,牢牢的跟阿里綁死,阿里接單,袋鼠云干活,跟在阿里后面;
- 數(shù)瀾是阿里產(chǎn)品團隊出來的,產(chǎn)品設(shè)計的比較ok,宣傳的也很不錯,業(yè)務(wù)開展的風(fēng)生水起;
- 奇點云是阿里數(shù)倉和數(shù)加團隊出來的,貌似宣傳的沒上面兩個強,接觸不多(數(shù)加是阿里自己的產(chǎn)品)。
如果你們公司業(yè)務(wù)復(fù)雜,數(shù)據(jù)量巨大,關(guān)鍵是業(yè)務(wù)方面有多個客戶應(yīng)用場景,數(shù)據(jù)交互效率低,需要大量的客戶數(shù)據(jù)價值發(fā)現(xiàn),需求也很緊迫,那可以考慮研究下中臺方案。
六、最后總結(jié)
- 報表平臺解決固定報表、自動化報表,支持打印和計算等大批量批處理作業(yè),公司有需求直接用帆軟一類的平臺解決,配1、2個報表工程師就能搞定了;
- BI平臺是在報表平臺上增加解決多維分析、自助查詢報表的能力,需要數(shù)倉團隊做底層數(shù)據(jù)支撐,需要BI工程師設(shè)定各種度量、維度,做多維分析報表;不用一張張的做固定報表了;
- 大數(shù)據(jù)平臺是在BI平臺基礎(chǔ)上,解決大數(shù)據(jù)量的存儲、計算、實時計算的問題;無需關(guān)注底層的海量數(shù)據(jù)存儲、計算、實時計算等問題;需要增加大數(shù)據(jù)工程師進行集群的維護,基于大數(shù)據(jù)平臺的各種開發(fā)工作;
- 數(shù)據(jù)中臺是在大數(shù)據(jù)平臺基礎(chǔ)上,提供ID打通、統(tǒng)一模型、統(tǒng)一服務(wù)的能力,附加標簽工廠、用戶分析等偏互聯(lián)網(wǎng)屬性的功能。人員需要增加數(shù)據(jù)中臺產(chǎn)品經(jīng)理,其他的工作還是由大數(shù)據(jù)工程師、大數(shù)據(jù)分析師等完成;
- 數(shù)據(jù)治理能力是從BI平臺就開始有了,在大數(shù)據(jù)平臺和數(shù)據(jù)中臺中不斷被強化。所以BI平臺、大數(shù)據(jù)平臺、數(shù)據(jù)中臺中都有數(shù)據(jù)治理的能力,在數(shù)據(jù)中臺中還增加了數(shù)據(jù)資產(chǎn)和計費的概念和能力。
作者:李啟方,專注數(shù)據(jù)分析和企業(yè)數(shù)據(jù)化管理;公眾號:數(shù)據(jù)分析不是個事兒
本文由 @李啟方 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
有很多干貨~謝謝樓主~
學(xué)習(xí)了