每日優(yōu)鮮如何搭建數(shù)據(jù)倉庫?

7 評論 21481 瀏覽 68 收藏 12 分鐘

編輯導讀:生鮮配送已經(jīng)不是一件新鮮事,只要在手機上下單就能享受到送貨到家的服務(wù)。這背后不僅要依靠強大的物流,還需要搭建數(shù)據(jù)倉庫,以便決策。本文將以每日優(yōu)鮮為例,分析它是如何搭建數(shù)據(jù)倉庫的,與你分享。

一、為什么要做數(shù)據(jù)倉庫&數(shù)據(jù)倉庫的結(jié)構(gòu)

1. 市場

國內(nèi)生鮮銷售渠道中農(nóng)貿(mào)市場占73%,而超市渠道滲透率僅為22%,相比與發(fā)達國家70%以上的水平,仍有較大差距。

隨著新零售的風口刮到了社區(qū)生鮮領(lǐng)域,社區(qū)生鮮近年來仍密集開店,一是行業(yè)巨頭降維打擊,布局“社區(qū)生鮮”市場,二是生鮮傳奇、錢大媽之類的小品牌井噴式爆發(fā)。

PEST分析:

國家政策:

國家大力發(fā)展在線農(nóng)產(chǎn)品交易,對農(nóng)產(chǎn)品超市進行補貼。并于2017年出臺的《商務(wù)部 中國農(nóng)業(yè)發(fā)展銀行關(guān)于共同推進農(nóng)產(chǎn)品和農(nóng)村市場體系建設(shè)的通知》,其中主要支持方向為:

  • 農(nóng)產(chǎn)品市場及倉儲物流設(shè)施建設(shè)。支持新建、改造各類農(nóng)產(chǎn)品批發(fā)市場、綜合加工配送中心、產(chǎn)地集配中心,完善預選分級、包裝、倉儲、物流等設(shè)施。
  • 公益性農(nóng)產(chǎn)品市場體系建設(shè)。支持公益性農(nóng)產(chǎn)品批發(fā)市場建設(shè)公共加工配送中心、公共信息服務(wù)平臺、檢驗檢測中心、消防安全監(jiān)控中心、廢棄物處理設(shè)施等公益性流通基礎(chǔ)設(shè)施。支持建設(shè)公益性菜市場、平價菜店等公益性農(nóng)產(chǎn)品零售網(wǎng)點。
  • 農(nóng)產(chǎn)品冷鏈物流體系建設(shè)。支持建設(shè)、改造標準化冷庫和冷鏈物流集散中心,提高農(nóng)產(chǎn)品產(chǎn)地預冷、低溫加工、冷鏈倉儲配送能力。推動封閉式交接貨通道、月臺、貨架等設(shè)施標準化改造,加快綠色環(huán)保冷藏冷凍設(shè)施設(shè)備與技術(shù)應用。

因此為在線生鮮的發(fā)展打開了政策渠道。

經(jīng)濟發(fā)展:

我國今年來經(jīng)濟快速發(fā)展,經(jīng)濟發(fā)展帶動了人民的消費欲望,在線生鮮電商打開了網(wǎng)上生鮮買賣的渠道。

社會現(xiàn)狀:

目前人們的消費水品提高,人們越來越關(guān)注農(nóng)產(chǎn)品的安全問題,因此人們很多希望能夠直接從農(nóng)產(chǎn)品生產(chǎn)地直接拿貨,既保證了食品安全,又對價格滿意;并且隨著人們網(wǎng)上購物的習慣養(yǎng)成和物流運輸水平的發(fā)展,人們網(wǎng)上采購生鮮類產(chǎn)品的意愿也在加強。

技術(shù)現(xiàn)狀:

隨著AI大數(shù)據(jù)以及物聯(lián)網(wǎng)等新技術(shù)的誕生,保質(zhì)期短的生鮮產(chǎn)品能夠在特定的時間及時送到用戶手中,并對用戶反饋的數(shù)據(jù)進行追蹤,既提高了用戶的滿意度,同時也能夠保證食品的安全和新鮮。

綜上所述,生鮮網(wǎng)上發(fā)展正處于快速成長期,市場份額將越來越大。

二、每日優(yōu)鮮產(chǎn)品概況

每日優(yōu)鮮成立于2014年,2018年已完成水果、蔬菜、乳品、零食、酒飲、肉蛋、水產(chǎn)、熟食、輕食、速食、糧油、日百等全品類精選生鮮布局,因此SKU非常豐富,作為配送類產(chǎn)品,每日產(chǎn)生巨大的數(shù)據(jù)量。

每日優(yōu)鮮能夠做了更多精準的觸達。媒體環(huán)境變得越來越精準了,這要求我們作為一個零售商或者廣告主,也會在算法上越來越精準。因此我們猜測每日優(yōu)鮮具有自己的OLTP。

伴隨著新零售到來的步伐以及社區(qū)團購迎來的新風口,電商巨頭們亦紛紛布局生鮮電商。阿里有盒馬鮮生,京東有7Fresh,蘇寧有蘇鮮生,步步高有鮮食演義,同一賽道角逐的還有美團的小象生鮮、易果生鮮、天天果園、大潤發(fā)優(yōu)鮮等,生鮮電商的搶灘戰(zhàn)未來將更加激烈。

因此,根據(jù)以上產(chǎn)品分析,每日優(yōu)鮮需要搭建自己的數(shù)據(jù)倉庫,用于公司決策,精細化運營。

三、數(shù)據(jù)倉庫的結(jié)構(gòu)

1. 事實與維度

每日優(yōu)鮮維度分析:

數(shù)據(jù)集市矩陣表:

2. 數(shù)據(jù)倉庫數(shù)據(jù)源

數(shù)據(jù)源分為三種:

  1. 結(jié)構(gòu)化數(shù)據(jù):一般是業(yè)務(wù)數(shù)據(jù)庫或日志數(shù)據(jù)庫中直接產(chǎn)生的數(shù)據(jù),存于關(guān)系數(shù)據(jù)庫中,常用的數(shù)據(jù)庫有,MYSQL,ORCAL,SQL SERVER,POSTGRESQL等數(shù)據(jù)庫中,主要以表的形式呈現(xiàn)。
  2. 半結(jié)構(gòu)化數(shù)據(jù):一般我們會將半結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過XML轉(zhuǎn)化存于CLOB中,即存在XML的節(jié)點中,因此可以對數(shù)據(jù)進行有效擴展,半結(jié)構(gòu)化數(shù)據(jù)一般后期會存入結(jié)構(gòu)化數(shù)據(jù)庫中進行調(diào)用。
  3. 非結(jié)構(gòu)化數(shù)據(jù):一般是圖片,文字,語言類型通常會使用到NLP,圖像處理,語音識別等技術(shù)手段進行處理之后存在nosql數(shù)據(jù)庫中,常用的有mongo DB 和HBASE或者基于內(nèi)存運算的列式存儲Redis數(shù)據(jù)庫,將數(shù)據(jù)存在數(shù)據(jù)庫的節(jié)點中,優(yōu)點在于能夠有效擴展。

3. 數(shù)據(jù)倉庫的物理生產(chǎn)環(huán)境和ETL

在服務(wù)器集群規(guī)模選擇上如下分析(舉例):

  • 日活100w,每人平均產(chǎn)生100條日志,那么每天總?cè)罩究梢允?00w*100=1億條;
  • 每條日志一般情況5~2k,按照1k進行計算,約需要100萬存儲空間;
  • 如果服務(wù)器半年內(nèi)不盡興擴容,那么需要的空間就是100萬*180天約為18T;
  • 保存3套數(shù)據(jù)副本,為54T;
  • 一般情況下還要預留20%~30%的空間,那么需要77T;
  • 按照一個磁盤10T的容量,那么我們就可以得出需要10個硬盤的服務(wù)器。

數(shù)據(jù)倉庫的物理生產(chǎn)環(huán)境一般是在LINUX平臺下運行,因為大數(shù)據(jù)生態(tài)體系下的編譯好的很多并包都是在LINUX系統(tǒng)中進行編譯,因此從技術(shù)開發(fā)層次在LINUX下開發(fā)。

一般服務(wù)器可以部署Apache開源的服務(wù),當然在選擇框架的過程中需要考慮企業(yè)數(shù)據(jù)的規(guī)模,一般情況下大企業(yè)使用Apache框架,而對于中小企業(yè)可以選擇CDH框架。可以使用使用Mysql或其他類型的數(shù)據(jù)庫(根據(jù)需求)。使用PHP或者Python、JavaScript進行寫入。

ETL可選擇Informatica、Beeload、Kettle(開源,有數(shù)據(jù)安全風險)。

在進行服務(wù)器集群管理時,可選擇軟件Claudira Manager(只支持CDH框架下軟件安裝)簡化框架安裝和集群管理。

4. 半結(jié)構(gòu)化數(shù)據(jù)的預處理

通常會使用XML或JOSN進行半結(jié)構(gòu)化數(shù)據(jù)的處理存儲。

5. 物理化實現(xiàn)數(shù)據(jù)庫物理表

這一步就是設(shè)計數(shù)據(jù)庫的表結(jié)構(gòu),依據(jù)上一部中的分析維度和事實情況進行數(shù)據(jù)庫表的設(shè)計。常用的維度建模模型有星型模型(結(jié)構(gòu)清晰)和星座模型。根據(jù)維度模型建立數(shù)據(jù)倉庫表。

6. ETL

數(shù)據(jù)倉庫設(shè)計完成,再對數(shù)據(jù)庫中的數(shù)據(jù)進行抽取轉(zhuǎn)換加載步驟。進行數(shù)據(jù)處理。將數(shù)據(jù)在各個框架中傳遞。

7. 加載事實表和維度表

對已經(jīng)制作完成的表結(jié)構(gòu)加載,得出我們希望看到的數(shù)據(jù)的事實表。

8. OLAP分析

將數(shù)據(jù)倉庫中的數(shù)據(jù)通過報表的形式和dashboard形式呈現(xiàn)出來。在此常用的工具有:

選擇的依據(jù)可以遵循兩個方面:

1)按照超大數(shù)據(jù)的查詢效率

Druid & Kylin & Presto & Spark SQL

2)從能夠處理的數(shù)據(jù)源多少的種類(從多到少)

Presto & Spark SQL & Kylin& Druid

數(shù)據(jù)可視化的工具一般可選用:echarts,superset,QuickBI,DataV。后兩種可視化工具為阿里提供的付費工具。

四、總結(jié)

數(shù)據(jù)倉庫的搭建是企業(yè)對數(shù)據(jù)的充分重視,搭建的過程可以是高層主導直接全域搭建或者由業(yè)務(wù)主題開始搭建數(shù)據(jù)集市,然后匯總成數(shù)據(jù)倉庫。

優(yōu)點:數(shù)據(jù)倉庫使企業(yè)數(shù)據(jù)集成,向上能夠幫助高層決策,向下能夠滿足運營、財務(wù)、采購、物流等業(yè)務(wù)部門需求;隨著企業(yè)數(shù)據(jù)量的增大,為后續(xù)數(shù)據(jù)湖和數(shù)據(jù)平臺的搭建提供底層支撐,對企業(yè)數(shù)據(jù)進行數(shù)據(jù)資產(chǎn)化和數(shù)據(jù)管理,進一步能夠指導企業(yè)的業(yè)務(wù)線發(fā)展。

缺點:數(shù)據(jù)倉庫幫助企業(yè)數(shù)字集成的同時,隨著企業(yè)發(fā)展壯大,缺少對數(shù)據(jù)的運維,如何能夠更好服務(wù)企業(yè)發(fā)展,各部門協(xié)作,是下面需要考慮的問題。

后期,數(shù)據(jù)倉庫為更好的為企業(yè)節(jié)省成本,需要搭建數(shù)據(jù)平臺,集成業(yè)務(wù)中臺和技術(shù)中臺。

由于本人知識結(jié)構(gòu)尚待優(yōu)化,有不足之處,請多多指正。感謝。

 

作者:汪仔2296,QQ:1083368735

本文由@汪仔2296 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 辛苦了

    回復
    1. 哪里辛苦,哈哈

      回復
  2. 講的太粗了,
    100萬存儲空間具體是怎么計算的呢?
    需要10個硬盤的服務(wù)器,是怎么計算的?

    回復
  3. 太籠統(tǒng)

    來自山東 回復
  4. ??隔壁啊

    回復
    1. 啥意思

      來自上海 回復
    2. 之前我在每日優(yōu)鮮隔壁公司

      來自北京 回復