數(shù)據(jù)產(chǎn)品經(jīng)理必須掌握的知識(shí)其實(shí)只是在大佬眼中的常識(shí)
眾所周知數(shù)據(jù)產(chǎn)品經(jīng)理是一個(gè)集數(shù)據(jù)分析、產(chǎn)品設(shè)計(jì)與業(yè)務(wù)理解于一體的綜合性崗位,其所需掌握的技能、崗位職責(zé)以及核心價(jià)值對(duì)于企業(yè)和產(chǎn)品的發(fā)展至關(guān)重要。小編最近在設(shè)計(jì)一個(gè)數(shù)字資產(chǎn)平臺(tái)的時(shí)候,深有體會(huì),一個(gè)數(shù)據(jù)產(chǎn)品經(jīng)理是最有可能幫助公司找到技術(shù)壁壘的存在,因此,今日小編將會(huì)分以下幾點(diǎn),和大家剖析數(shù)據(jù)產(chǎn)品經(jīng)理的Common Sense
一、所需掌握的技能
1. 數(shù)據(jù)分析技能
- SQL及數(shù)據(jù)庫知識(shí):熟練掌握SQL語言,能夠高效地進(jìn)行數(shù)據(jù)查詢、處理和分析。
- 統(tǒng)計(jì)與數(shù)據(jù)分析工具:熟悉使用Excel、Python(Pandas、NumPy等庫)、R等數(shù)據(jù)分析工具,能夠進(jìn)行復(fù)雜的數(shù)據(jù)處理和分析。
- 數(shù)據(jù)可視化:掌握至少一種數(shù)據(jù)可視化工具(如Tableau、Power BI等),能夠?qū)?fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀的圖表,幫助業(yè)務(wù)團(tuán)隊(duì)更好地理解數(shù)據(jù)。
2. 產(chǎn)品設(shè)計(jì)與項(xiàng)目管理技能
- 產(chǎn)品設(shè)計(jì)能力:具備用戶需求分析、產(chǎn)品原型設(shè)計(jì)、PRD文檔編寫等能力,能夠獨(dú)立完成產(chǎn)品的規(guī)劃和設(shè)計(jì)。
- 項(xiàng)目管理能力:能夠協(xié)調(diào)跨部門資源,推動(dòng)項(xiàng)目按計(jì)劃進(jìn)行,確保產(chǎn)品按時(shí)上線并持續(xù)優(yōu)化。
3. 業(yè)務(wù)理解與洞察能力
- 行業(yè)知識(shí):對(duì)所在行業(yè)有深入的了解,能夠洞察行業(yè)趨勢(shì)和市場(chǎng)需求。
- 業(yè)務(wù)邏輯理解:深入理解企業(yè)業(yè)務(wù)邏輯和流程,能夠?qū)I(yè)務(wù)需求轉(zhuǎn)化為產(chǎn)品功能。
4. 技術(shù)理解能力
- 大數(shù)據(jù)與AI技術(shù):了解大數(shù)據(jù)平臺(tái)、機(jī)器學(xué)習(xí)等前沿技術(shù),能夠?qū)⑵鋺?yīng)用于產(chǎn)品設(shè)計(jì)中以提升產(chǎn)品競(jìng)爭(zhēng)力。
- 數(shù)據(jù)治理與安全:了解數(shù)據(jù)治理的基本概念和方法,確保數(shù)據(jù)的質(zhì)量和安全。
二、核心價(jià)值
數(shù)據(jù)產(chǎn)品經(jīng)理的核心價(jià)值主要體現(xiàn)在以下幾個(gè)方面:
- 提升決策效率與質(zhì)量:通過數(shù)據(jù)分析為業(yè)務(wù)團(tuán)隊(duì)提供準(zhǔn)確、及時(shí)的數(shù)據(jù)支持,幫助團(tuán)隊(duì)做出更加科學(xué)、合理的決策。
- 優(yōu)化產(chǎn)品功能與用戶體驗(yàn):基于用戶需求和業(yè)務(wù)場(chǎng)景進(jìn)行產(chǎn)品設(shè)計(jì)與優(yōu)化,提升產(chǎn)品的易用性和滿意度。
- 推動(dòng)業(yè)務(wù)增長與創(chuàng)新:通過數(shù)據(jù)洞察發(fā)現(xiàn)新的業(yè)務(wù)機(jī)會(huì)和創(chuàng)新點(diǎn),推動(dòng)業(yè)務(wù)的持續(xù)增長和創(chuàng)新發(fā)展。
- 促進(jìn)數(shù)據(jù)資產(chǎn)的價(jià)值最大化:通過數(shù)據(jù)治理和數(shù)據(jù)分析等手段提升數(shù)據(jù)資產(chǎn)的質(zhì)量和價(jià)值,為企業(yè)創(chuàng)造更大的商業(yè)價(jià)值。
三、術(shù)語解釋
1. 數(shù)據(jù)元
數(shù)據(jù)元是數(shù)據(jù)的最小單元,它是對(duì)特定信息內(nèi)容的標(biāo)準(zhǔn)化表示。它通常代表一個(gè)單一的事實(shí)、屬性或特征,如姓名、日期或金額等。數(shù)據(jù)元具有明確的定義、數(shù)據(jù)類型、值域和表示方法,它是構(gòu)成數(shù)據(jù)集的基本單元。
2. 元數(shù)據(jù)
元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)的數(shù)據(jù),它提供了關(guān)于數(shù)據(jù)元的相關(guān)信息,如數(shù)據(jù)的來源、格式、位置、名稱、大小等以及如何訪問和處理這些數(shù)據(jù)。有助于數(shù)據(jù)的識(shí)別、管理和使用。
元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費(fèi)的全過程。元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。
元數(shù)據(jù)按類型劃分:
- 業(yè)務(wù)元數(shù)據(jù):例如;用戶范圍、業(yè)務(wù)規(guī)則、邏輯規(guī)則等等;
- 技術(shù)元數(shù)據(jù):例如:在數(shù)據(jù)庫中的表名、字段名、字段類型、字段長度等等;
- 管理/操作元數(shù)據(jù):例如:管理元數(shù)據(jù)的加工、存檔、結(jié)構(gòu)、存取、版本控制權(quán)等等的問題;
3. 主數(shù)據(jù)
企業(yè)中多個(gè)信息系統(tǒng)共享和使用的數(shù)據(jù),主數(shù)據(jù)不僅僅是清洗過的標(biāo)準(zhǔn)數(shù)據(jù),它還包括了數(shù)據(jù)的整合、豐富和維護(hù)等一系列管理活動(dòng),以確保數(shù)據(jù)的質(zhì)量和應(yīng)用的一致性。
4. 數(shù)據(jù)源
數(shù)據(jù)源則是指數(shù)據(jù)的產(chǎn)生地或存儲(chǔ)地,它可以是數(shù)據(jù)庫、文件、API接口等。數(shù)據(jù)源包含了一系列的數(shù)據(jù)元素,它們是數(shù)據(jù)流的起點(diǎn),可以被提取、轉(zhuǎn)換并用于不同的應(yīng)用場(chǎng)景。數(shù)據(jù)元:是實(shí)際的數(shù)據(jù)內(nèi)容,是構(gòu)成數(shù)據(jù)的基本單位,關(guān)注于數(shù)據(jù)的定義和標(biāo)準(zhǔn)化;
- 元數(shù)據(jù):是對(duì)數(shù)據(jù)元的描述和說明。數(shù)據(jù)元與元數(shù)據(jù)兩者相輔相成,共同構(gòu)成了完整的數(shù)據(jù)管理體系;
- 主數(shù)據(jù):是企業(yè)核心業(yè)務(wù)實(shí)體的集合,關(guān)注于跨系統(tǒng)的數(shù)據(jù)一致性和準(zhǔn)確性;
- 數(shù)據(jù)源:則是這些數(shù)據(jù)元的原始出處。
5. 數(shù)據(jù)質(zhì)量規(guī)則體系
數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
完整性、唯一性、有效性(合規(guī)性)、一致性、準(zhǔn)確性、及時(shí)性,六個(gè)維度進(jìn)行單列、跨列、跨行和跨表的分析
- 準(zhǔn)確性: 描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。
- 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
- 一致性: 描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。
- 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。
- 唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄。
- 及時(shí)性: 描述數(shù)據(jù)的產(chǎn)生和供應(yīng)是否及時(shí)。
- 穩(wěn)定性: 描述數(shù)據(jù)的波動(dòng)是否是穩(wěn)定的,是否在其有效范圍內(nèi)。
6. 數(shù)據(jù)安全管理
旨在確保數(shù)據(jù)在整個(gè)生命周期內(nèi)的保密性、完整性和可用性,同時(shí)也包括確保數(shù)據(jù)的合法合規(guī)使用。
7. ETL數(shù)據(jù)
指通過提?。‥xtract)、轉(zhuǎn)換(Transform)和加載(Load)的流程處理的數(shù)據(jù)
8. 數(shù)據(jù)湖
是一個(gè)大規(guī)模的存儲(chǔ)系統(tǒng),用于存儲(chǔ)原始數(shù)據(jù)和未經(jīng)處理的數(shù)據(jù)。
數(shù)據(jù)湖中的數(shù)據(jù)可能是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,例如文本文件、電子郵件、社交媒體帖子等。數(shù)據(jù)湖的目的是保留數(shù)據(jù)的原始狀態(tài),直到需要時(shí)再進(jìn)行處理和分析。
9. 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫側(cè)重于結(jié)構(gòu)化數(shù)據(jù)的集成和分析。是一個(gè)面向主題、集成的、相對(duì)穩(wěn)定的環(huán)境,用于支持決策制定過程。它通常包含經(jīng)過清理和集成的歷史數(shù)據(jù),這些數(shù)據(jù)不再被修改,而是用于查詢和分析。數(shù)據(jù)倉庫的數(shù)據(jù)是結(jié)構(gòu)化的,適合進(jìn)行復(fù)雜的查詢和報(bào)告生成,以支持商業(yè)智能(BI)和在線分析處理(OLAP)應(yīng)用。
10. 數(shù)據(jù)集市
可以被視為數(shù)據(jù)倉庫的子集,它服務(wù)于特定的業(yè)務(wù)領(lǐng)域或部門。數(shù)據(jù)集市包含特定主題的數(shù)據(jù),通常更加專注于滿足某個(gè)特定業(yè)務(wù)需求的數(shù)據(jù)分析。
11. 數(shù)據(jù)標(biāo)簽
用戶對(duì)資產(chǎn)進(jìn)行分類和描述,以便于檢索??梢詮臉I(yè)務(wù)角度定義標(biāo)簽,并與技術(shù)資產(chǎn)關(guān)聯(lián)數(shù)據(jù)指標(biāo)
12. Broker
通常指的是消息代理服務(wù)器
13. ODS
數(shù)據(jù)倉庫中的ODS(Operational Data Store),ODS是指操作型數(shù)據(jù)存儲(chǔ),它是一種用于整合和管理多個(gè)數(shù)據(jù)源的數(shù)據(jù)存儲(chǔ)方式。它的主要作用是提供統(tǒng)一的數(shù)據(jù)平臺(tái),讓業(yè)務(wù)用戶能夠在同一個(gè)平臺(tái)上訪問、管理和分析多個(gè)數(shù)據(jù)源的數(shù)據(jù)。ODS中的數(shù)據(jù)則是按照業(yè)務(wù)實(shí)時(shí)的需要進(jìn)行組織,通常包括原始數(shù)據(jù)和運(yùn)算數(shù)據(jù)兩種。
1)數(shù)據(jù)倉庫與ODS的區(qū)別
(1)數(shù)據(jù)結(jié)構(gòu)不同
數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的,通常采用三層架構(gòu):底層是數(shù)據(jù)明細(xì)層,中層是聚合層,頂層是匯總層。而ODS中的數(shù)據(jù)則是按照業(yè)務(wù)實(shí)時(shí)的需要進(jìn)行組織,通常包括原始數(shù)據(jù)和運(yùn)算數(shù)據(jù)兩種。
(2)數(shù)據(jù)處理方式不同
數(shù)據(jù)倉庫中的數(shù)據(jù)處理以分析為主,注重?cái)?shù)據(jù)的全面性和綜合性,數(shù)據(jù)多為靜態(tài),數(shù)據(jù)處理操作較少。而ODS中的數(shù)據(jù)處理以操作為主,注重?cái)?shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,數(shù)據(jù)多為動(dòng)態(tài),數(shù)據(jù)處理操作頻繁。
(3)數(shù)據(jù)來源不同
數(shù)據(jù)倉庫中的數(shù)據(jù)通常來自于多個(gè)異構(gòu)數(shù)據(jù)源,需要進(jìn)行數(shù)據(jù)清洗、整合等操作才能進(jìn)入數(shù)據(jù)倉庫。而ODS中的數(shù)據(jù)則來自于生產(chǎn)系統(tǒng)的數(shù)據(jù)庫,可以直接進(jìn)行操作。
2)數(shù)據(jù)質(zhì)量關(guān)注點(diǎn)
- 一致性:值數(shù)內(nèi)容在系統(tǒng)內(nèi),系統(tǒng)間是否保持一致。如指標(biāo)是否同名同義,存儲(chǔ),精確度,加工邏輯等是否一致。
- 完整性:指數(shù)據(jù)的完整,完備性與及時(shí)性,是否存在數(shù)據(jù)遺漏,缺失及補(bǔ)充等。每日提供的數(shù)據(jù)應(yīng)該是完整的,無論在量上還是在特定的數(shù)據(jù)上,高質(zhì)量的數(shù)據(jù)是通過完整的數(shù)據(jù)統(tǒng)計(jì)出來的。
- 可靠性:指數(shù)據(jù)的穩(wěn)定性和準(zhǔn)確性等,數(shù)據(jù)提供過程中,數(shù)據(jù)產(chǎn)生依賴于系統(tǒng)間的性能,生產(chǎn)數(shù)據(jù)和加工數(shù)據(jù)的過程,都會(huì)影響數(shù)據(jù)的可靠性。
- 準(zhǔn)確性:數(shù)據(jù)域源頭的精確性,以及數(shù)據(jù)處理過程中是否存在算法和數(shù)據(jù)沖突等。數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集,只有準(zhǔn)確更高的數(shù)據(jù)才能提供高效、高優(yōu)的決策。
- 可理解性:數(shù)據(jù)的可讀性和可分析性,是否滿足業(yè)務(wù)需求,以及數(shù)據(jù)間是否存在相互關(guān)系,用戶拿到數(shù)據(jù)是可理解,可用,可決策的。
- 有效性:指數(shù)據(jù)是否有效可用,以及數(shù)據(jù)數(shù)據(jù)的訪問域安全性等。數(shù)據(jù)安全是數(shù)據(jù)質(zhì)量的一項(xiàng)重點(diǎn)管理方面,數(shù)據(jù)安全對(duì)于數(shù)據(jù)人來說是一條不可觸摸的紅線。
14. oracle表分區(qū)
1)分區(qū)表的概念:
當(dāng)表中的數(shù)據(jù)量不斷增大,查詢數(shù)據(jù)的速度就會(huì)變慢,應(yīng)用程序的性能就會(huì)下降,這時(shí)就應(yīng)該考慮對(duì)表進(jìn)行分區(qū)。表進(jìn)行分區(qū)后,邏輯上表仍然是一張完整的表,只是將表中的數(shù)據(jù)在物理上存放到多個(gè)表空間(物理文件上),這樣查詢數(shù)據(jù)時(shí),不至于每次都掃描整張表。
2)分區(qū)表的優(yōu)點(diǎn):
- 改善查詢性能:對(duì)分區(qū)對(duì)象的查詢可以僅搜索自己關(guān)心的分區(qū),提高檢索速度。
- 增強(qiáng)可用性:如果表的某個(gè)分區(qū)出現(xiàn)故障,表在其他分區(qū)的數(shù)據(jù)仍然可用;
- 維護(hù)方便:如果表的某個(gè)分區(qū)出現(xiàn)故障,需要修復(fù)數(shù)據(jù),只修復(fù)該分區(qū)即可;
- 均衡I/O:可以把不同的分區(qū)映射到磁盤以平衡I/O,改善整個(gè)系統(tǒng)性能。
3)分區(qū)表的種類:
(1)范圍分區(qū)
概念: 范圍分區(qū)將數(shù)據(jù)基于范圍映射到每一個(gè)分區(qū),這個(gè)范圍是你在創(chuàng)建分區(qū)時(shí)指定的分區(qū)鍵決定的。這種分區(qū)方式是最為常用的,并且分區(qū)鍵經(jīng)常采用日期。
(2)Hash分區(qū)
概念:
對(duì)于那些無法有效劃分范圍的表,可以使用hash分區(qū),這樣對(duì)于提高性能還是會(huì)有一定的幫助。hash分區(qū)會(huì)將表中的數(shù)據(jù)平均分配到你指定的幾個(gè)分區(qū)中,列所在分區(qū)是依據(jù)分區(qū)列的hash值自動(dòng)分配,因此你并不能控制也不知道哪條記錄會(huì)被放到哪個(gè)分區(qū)中,hash分區(qū)也可以支持多個(gè)依賴列。
(3)List分區(qū)
List分區(qū)也需要指定列的值,其分區(qū)值必須明確指定,該分區(qū)列只能有一個(gè),不能像range或者h(yuǎn)ash分區(qū)那樣同時(shí)指定多個(gè)列做為分區(qū)依賴列,但它的單個(gè)分區(qū)對(duì)應(yīng)值可以是多個(gè)。
(4)組合分區(qū)
批處理和流處理區(qū)別:批處理和流處理的主要區(qū)別在于數(shù)據(jù)處理的時(shí)間、存儲(chǔ)方式、應(yīng)用領(lǐng)域以及數(shù)據(jù)處理方式。
- 處理時(shí)間:批處理通常在固定時(shí)間間隔內(nèi)一次性處理大量數(shù)據(jù),處理過程可能涉及讀取數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換和寫入結(jié)果等階段,而流處理是連續(xù)不斷地處理數(shù)據(jù),每當(dāng)有新的數(shù)據(jù)產(chǎn)生時(shí),系統(tǒng)會(huì)立即對(duì)其進(jìn)行處理并將結(jié)果實(shí)時(shí)輸出。
- 存儲(chǔ)方式:批處理通常涉及將數(shù)據(jù)存儲(chǔ)在臨時(shí)數(shù)據(jù)庫或文件系統(tǒng)中,以便進(jìn)行集中處理,而流處理需要在內(nèi)存中存儲(chǔ)一部分?jǐn)?shù)據(jù),以便進(jìn)行實(shí)時(shí)計(jì)算和分析。
- 應(yīng)用領(lǐng)域:批處理適用于需要處理大量數(shù)據(jù)的場(chǎng)景,如大數(shù)據(jù)分析、數(shù)據(jù)挖掘、生成報(bào)表等。流處理則適用于需要實(shí)時(shí)處理數(shù)據(jù)并快速生成結(jié)果的場(chǎng)景,如實(shí)時(shí)監(jiān)控、金融風(fēng)險(xiǎn)控制、用戶行為分析等。
- 數(shù)據(jù)處理方式:批處理的數(shù)據(jù)被視為一批靜態(tài)的記錄集合,處理過程通常是一次性的,處理完整個(gè)數(shù)據(jù)集后,任務(wù)結(jié)束。流處理中,數(shù)據(jù)被視為不斷流動(dòng)的數(shù)據(jù)流,系統(tǒng)持續(xù)不斷地處理這些數(shù)據(jù)流。
綜上所述,批處理和流處理各有其適用的場(chǎng)景和優(yōu)勢(shì)。批處理適合于不需要即時(shí)響應(yīng)的場(chǎng)景,如日志分析、大規(guī)模數(shù)據(jù)集的ETL操作、復(fù)雜的數(shù)據(jù)轉(zhuǎn)換和計(jì)算等,而流處理則適合于需要實(shí)時(shí)或近實(shí)時(shí)響應(yīng)的場(chǎng)景,如實(shí)時(shí)監(jiān)控、實(shí)時(shí)分析、在線推薦系統(tǒng)、實(shí)時(shí)欺詐檢測(cè)等。
流處理系統(tǒng)對(duì)低延遲的要求和批處理系統(tǒng)對(duì)高吞吐量的要求
四、數(shù)據(jù)采集
1. 數(shù)據(jù)質(zhì)量核查與異常處理
- 數(shù)據(jù)質(zhì)量核查對(duì)采集的數(shù)據(jù)總量進(jìn)行比對(duì), 生成數(shù)據(jù)對(duì)比報(bào)告,并對(duì)采集數(shù)據(jù)內(nèi)容進(jìn)行質(zhì)量核 查,保證獲取數(shù)據(jù)與原始數(shù)據(jù)數(shù)量、數(shù)據(jù)內(nèi)容一致。
- 若經(jīng)數(shù)據(jù)核查存在數(shù)據(jù)差異,啟動(dòng)異常處理流程,將發(fā)現(xiàn)的異常數(shù)據(jù)反饋給數(shù)據(jù)提供方,待其 將異常數(shù)據(jù)核對(duì)修改后重新進(jìn)行采集。
2. 數(shù)據(jù)類型
按結(jié)構(gòu)化特征、業(yè)務(wù)歸屬和產(chǎn)生來源等維度對(duì)政務(wù)大數(shù)據(jù)進(jìn)行分類,具體如下:
1)結(jié)構(gòu)化數(shù)據(jù)
對(duì)于結(jié)構(gòu)化數(shù)據(jù),按業(yè)務(wù)歸屬分為:
- 主數(shù)據(jù), 用來描述核心業(yè)務(wù)實(shí)體的數(shù)據(jù), 是核心業(yè)務(wù)對(duì)象、交易業(yè)務(wù)的執(zhí)行主體, 為應(yīng)用 軟件提供一個(gè)統(tǒng)一、一致的參考數(shù)據(jù)映像,如人口、法人、車輛、房屋、事項(xiàng)等數(shù)據(jù);
- 基礎(chǔ)數(shù)據(jù),描述核心業(yè)務(wù)對(duì)象、交易業(yè)務(wù)的基礎(chǔ)信息數(shù)據(jù),通常是靜態(tài)的(如事項(xiàng)類型、 證件類型), 一般在業(yè)務(wù)事件發(fā)生之前就已經(jīng)預(yù)先定義,其變化很少或者變化很慢,可選值 數(shù)量有限的,如行政區(qū)劃、組織劃分、經(jīng)濟(jì)分類等數(shù)據(jù);
- 事務(wù)數(shù)據(jù), 在業(yè)務(wù)和流程中產(chǎn)生并記錄業(yè)務(wù)事件的數(shù)據(jù), 具有較強(qiáng)時(shí)效性的一次性業(yè)務(wù)事 件, 通常在事件結(jié)束后不再更新,事務(wù)數(shù)據(jù)會(huì)調(diào)用主數(shù)據(jù)和基礎(chǔ)數(shù)據(jù),如執(zhí)法監(jiān)管、行政審 批等數(shù)據(jù);
- 觀測(cè)數(shù)據(jù),對(duì)人、事、 物、環(huán)境等觀測(cè)對(duì)象,通過觀測(cè)工具獲取的數(shù)據(jù), 一般數(shù)據(jù)量較 大且是過程性的,主要用作監(jiān)控分析,如氣象觀測(cè)、水文監(jiān)測(cè)、環(huán)境監(jiān)測(cè)等數(shù)據(jù);
- 規(guī)則數(shù)據(jù), 結(jié)構(gòu)化描述業(yè)務(wù)規(guī)則變量的數(shù)據(jù), 一般為決策表、關(guān)聯(lián)關(guān)系表等形式, 是實(shí)現(xiàn) 業(yè)務(wù)規(guī)則的核心,如事項(xiàng)審批規(guī)則、執(zhí)法規(guī)則等數(shù)據(jù);
- 統(tǒng)計(jì)數(shù)據(jù), 對(duì)數(shù)據(jù)按照統(tǒng)計(jì)學(xué)方法進(jìn)行處理加工后, 用作業(yè)務(wù)決策依據(jù)的次級(jí)數(shù)據(jù), 一般 用于支持報(bào)告和報(bào)表的生成,如GDP指標(biāo)、財(cái)政收入指標(biāo)等數(shù)據(jù)。
2)半結(jié)構(gòu)化數(shù)據(jù)
對(duì)于半結(jié)構(gòu)化數(shù)據(jù),按產(chǎn)生來源分為:
- XML文檔;
- JSON文檔;
- 日志文件;
- HTML文檔;
- Email。
3)非結(jié)構(gòu)化數(shù)據(jù)
對(duì)于非結(jié)構(gòu)化數(shù)據(jù),按產(chǎn)生來源分為:
- 文本數(shù)據(jù);
- 多媒體數(shù)據(jù);
- 空間數(shù)據(jù)。
注: 針對(duì)事務(wù)數(shù)據(jù), 按產(chǎn)生頻率分類, 分為實(shí)時(shí)數(shù)據(jù)和非實(shí)時(shí)數(shù)據(jù); 針對(duì)文本數(shù)據(jù), 按業(yè)務(wù)歸屬分類, 分為法律數(shù) 據(jù)、規(guī)章數(shù)據(jù)、辦公數(shù)據(jù)、事務(wù)數(shù)據(jù); 針對(duì)多媒體數(shù)據(jù), 按產(chǎn)生來源分類, 分為音頻數(shù)據(jù)、視頻數(shù)據(jù)和圖像數(shù) 據(jù);針對(duì)空間數(shù)據(jù),按產(chǎn)生來源分類,分為矢量數(shù)據(jù)、柵格數(shù)據(jù)和實(shí)景三維數(shù)據(jù)。
3. 數(shù)據(jù)采集方式
根據(jù)需要采集數(shù)據(jù)的范圍、類型以及數(shù)據(jù)的質(zhì)量和安全要求, 綜合考慮數(shù)據(jù)源網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)采集 工具技術(shù)路線選型、現(xiàn)有數(shù)據(jù)采集通道建設(shè)情況,從而確定數(shù)據(jù)采集方式。
1)終端采集:通過硬件終端、軟件終端、網(wǎng)絡(luò)爬蟲等方式對(duì)物聯(lián)網(wǎng)傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等 進(jìn)行數(shù)據(jù)采集;
2)人工采集:通過在線填報(bào)、離線拷貝和導(dǎo)入等人工轉(zhuǎn)化方式進(jìn)行數(shù)據(jù)采集和導(dǎo)入,如問卷調(diào)查、實(shí)地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),以及通過移動(dòng)介質(zhì)拷貝的數(shù)據(jù),包括常用的文件交 換類型和數(shù)據(jù)庫導(dǎo)出文件;
3)軟件系統(tǒng)數(shù)據(jù)匯聚:
- 數(shù)據(jù)庫表交換: 以數(shù)據(jù)庫表作為數(shù)據(jù)資源進(jìn)行匯聚, 通過在數(shù)據(jù)交換兩端部署數(shù)據(jù)交換組件及交換庫;源端數(shù)據(jù)發(fā)生更新后實(shí)時(shí)通過交換組件推送至源端交換庫,由兩端交換組件協(xié)調(diào)雙方交換庫的同步,目標(biāo)端通過交換組件從交換庫提取數(shù)據(jù)。
- 數(shù)據(jù)接口: 以數(shù)據(jù)接口服務(wù)作為數(shù)據(jù)資源進(jìn)行匯集,常用的接口方式有WebService、 Restful,并以XML、JSON等格式進(jìn)行服務(wù)。數(shù)據(jù)資源提供方調(diào)取業(yè)務(wù)應(yīng)用系統(tǒng)或數(shù)據(jù)庫中的 數(shù)據(jù),并封裝提供數(shù)據(jù)接口服務(wù),數(shù)據(jù)需求方通過數(shù)據(jù)接口調(diào)用獲取數(shù)據(jù),并把數(shù)據(jù)采集至 前置庫中,目標(biāo)端通過交換組件從前置庫提取數(shù)據(jù);
- 文件交換:以電子文件作為數(shù)據(jù)資源進(jìn)行匯聚,常用的電子文件類型有wps、xml、txt、 doc、docx、html、csv、xls、xlsx等。通過前置機(jī)的共享目錄或FTP服務(wù),實(shí)現(xiàn)共享文件數(shù)據(jù)組裝、數(shù)據(jù)傳輸、數(shù)據(jù)解析和數(shù)據(jù)使用,達(dá)到數(shù)據(jù)交換的目的;
- 消息隊(duì)列: 以消息發(fā)布-訂閱方式進(jìn)行數(shù)據(jù)匯聚, 可實(shí)現(xiàn)消息的異步發(fā)送接收, 發(fā)布訂閱, 使得兩端的應(yīng)用解耦(減少或解除應(yīng)用程序之間的耦合度)和網(wǎng)絡(luò)傳輸斷點(diǎn)續(xù)傳,支持分布 式消息隊(duì)列。
4. 實(shí)施數(shù)據(jù)采集
1)根據(jù)數(shù)據(jù)采集探查的結(jié)果, 針對(duì)不同的數(shù)據(jù)源類型, 推薦采用以下數(shù)據(jù)采集方案實(shí)施數(shù)據(jù)采集:
- 針對(duì)結(jié)構(gòu)單一、數(shù)據(jù)量相對(duì)較小的結(jié)構(gòu)化數(shù)據(jù),可通過數(shù)據(jù)庫交換、文件交換、數(shù)據(jù)接口、 消息隊(duì)列等方式進(jìn)行數(shù)據(jù)采集;
- 針對(duì)傳感器、智能手機(jī)、網(wǎng)絡(luò)等渠道產(chǎn)生的類型豐富、數(shù)據(jù)量較大的數(shù)據(jù),可通過分布式數(shù) 據(jù)接口、分布式流數(shù)據(jù)收集、網(wǎng)絡(luò)爬蟲等方式進(jìn)行數(shù)據(jù)采集;
- 針對(duì)由麥克風(fēng)、攝像頭等設(shè)備產(chǎn)生的海量音視頻數(shù)據(jù),可通過硬件終端的語音圖像識(shí)別、編解碼等技術(shù)轉(zhuǎn)化后進(jìn)行數(shù)據(jù)采集;
- 針對(duì)問卷調(diào)查、實(shí)地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),可通過在線填報(bào)、離線導(dǎo)人等人工轉(zhuǎn)化 方式進(jìn)行數(shù)據(jù)采集。
2)不應(yīng)在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務(wù)繁忙時(shí)進(jìn)行,避免讀取動(dòng)作影響源系統(tǒng)正常運(yùn)行。
3)宜使用源系統(tǒng)的備份庫作為采集對(duì)象,使用備份庫時(shí)應(yīng)保證數(shù)據(jù)一致性和可用性。
4)對(duì)于數(shù)據(jù)量較大、單批量采集可能會(huì)造成系統(tǒng)故障的,應(yīng)支持分批或增量讀取, 并采用分布式 方式對(duì)數(shù)據(jù)源進(jìn)行讀取。
5. 原始數(shù)據(jù)入庫
- 將不進(jìn)行處理的原始數(shù)據(jù)采集后存放在政務(wù)大數(shù)據(jù)的原始庫中。
- 原始數(shù)據(jù)存儲(chǔ)應(yīng)按照規(guī)定, 根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲(chǔ)方式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。
6. 數(shù)據(jù)規(guī)整
數(shù)據(jù)規(guī)整通過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等操作, 對(duì)采集的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化規(guī)整處理, 確保數(shù)據(jù)的完整性、準(zhǔn)確性和時(shí)效性。
數(shù)據(jù)規(guī)整過程管理應(yīng)包括但不限于:
- 數(shù)據(jù)分析:應(yīng)對(duì)數(shù)據(jù)源進(jìn)行分析,及時(shí)發(fā)現(xiàn)數(shù)據(jù)源存在的質(zhì)量問題;
- 定義清洗規(guī)則:包括空值的檢查和處理、非法值的檢測(cè)和處理、不一致數(shù)據(jù)的檢測(cè)和處理、 相似重復(fù)記錄的檢測(cè)和處理等;
- 執(zhí)行數(shù)據(jù)清洗規(guī)則: 依據(jù)定義的清洗規(guī)則,補(bǔ)足殘缺/空值、糾正不一致、完成數(shù)據(jù)拆分、數(shù)據(jù)合并或去重、數(shù)據(jù)脫敏、數(shù)據(jù)除噪等;
- 清洗結(jié)果驗(yàn)證:數(shù)據(jù)清洗方應(yīng)對(duì)定義的清洗方法的正確性和效率進(jìn)行驗(yàn)證與評(píng)估,對(duì)不滿足 清洗要求的清洗方法進(jìn)行調(diào)整和改進(jìn)。數(shù)據(jù)清洗過程宜多次迭代并進(jìn)行分析、設(shè)計(jì)和驗(yàn)證。
應(yīng)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)代碼、格式、類型等內(nèi)容,按照政務(wù)大數(shù)據(jù)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換。
應(yīng)通過數(shù)據(jù)聚合、數(shù)據(jù)歸類、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)血緣等方法,分析采集的數(shù)據(jù),形成上下文完整 有效的數(shù)據(jù)。
7. 規(guī)整數(shù)據(jù)入庫
對(duì)原始庫中的數(shù)據(jù)進(jìn)行規(guī)整,使其滿足政務(wù)數(shù)據(jù)使用的標(biāo)準(zhǔn)化質(zhì)量要求,規(guī)整后的數(shù)據(jù)存放在 政務(wù)大數(shù)據(jù)規(guī)整庫中。
規(guī)整庫數(shù)據(jù)存儲(chǔ)應(yīng)根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲(chǔ)方式,存儲(chǔ)應(yīng)符合規(guī)定。 處理后的數(shù)據(jù)存儲(chǔ)應(yīng)滿足海量、安全、高性能、高可靠、易管理。
8. 數(shù)據(jù)更新
原始數(shù)據(jù)發(fā)生更新時(shí),應(yīng)依照上述要求的數(shù)據(jù)采集流程中的步驟對(duì)原始庫和規(guī)整庫中的需更新數(shù)據(jù)進(jìn)行更新采集, 并根據(jù)數(shù)據(jù)更新快慢和實(shí)時(shí)性要求制定不同的采集策略。原始庫中更新后的歷史數(shù) 據(jù)存放在政務(wù)大數(shù)據(jù)中的歷史庫中。
1)應(yīng)支持全量更新和增量更新的數(shù)據(jù)更新方法:
- 對(duì)存在更新標(biāo)識(shí)的數(shù)據(jù)應(yīng)支持增量更新;
- 對(duì)不存在更新標(biāo)識(shí)的數(shù)據(jù)應(yīng)支持全量更新。
2)應(yīng)支持定時(shí)更新、事件觸發(fā)更新和手動(dòng)更新的數(shù)據(jù)更新策略:
- 對(duì)產(chǎn)生呈現(xiàn)周期性規(guī)律的數(shù)據(jù)應(yīng)支持定時(shí)更新策略;
- 對(duì)產(chǎn)生由特定事件觸發(fā)的數(shù)據(jù)應(yīng)支持事件觸發(fā)更新策略;
- 對(duì)產(chǎn)生無特定規(guī)律的數(shù)據(jù)應(yīng)支持手動(dòng)更新策略。
3)支持實(shí)時(shí)、定時(shí)的數(shù)據(jù)更新頻率,并根據(jù)數(shù)據(jù)變化情況,進(jìn)行及時(shí)和持續(xù)更新:
- 實(shí)時(shí)產(chǎn)生且實(shí)時(shí)性要求高的數(shù)據(jù)應(yīng)進(jìn)行實(shí)時(shí)更新;
- 實(shí)時(shí)產(chǎn)生且實(shí)時(shí)性要求低的數(shù)據(jù)宜采用定時(shí)更新
9. 數(shù)據(jù)范圍
政務(wù)大數(shù)據(jù)采集范圍包括但不限于基礎(chǔ)數(shù)據(jù)、專題數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和其他數(shù)據(jù)四大類:
- 基礎(chǔ)數(shù)據(jù),如人口、法人單位、自然資源、地理空間、宏觀經(jīng)濟(jì)、電子證照等數(shù)據(jù);
- 專題數(shù)據(jù),如房屋、城市部件、網(wǎng)格等與數(shù)字政府、數(shù)字社會(huì)、數(shù)字經(jīng)濟(jì)、數(shù)字文化、數(shù)字 生態(tài)相關(guān)的數(shù)據(jù);
- 業(yè)務(wù)數(shù)據(jù),如涉及公安、衛(wèi)生健康、教育、民政、交通、水利、人力資源和社會(huì)保障、市場(chǎng) 監(jiān)管、應(yīng)急管理、司法、住房和城鄉(xiāng)建設(shè)、交通運(yùn)輸、數(shù)據(jù)資源管理等眾多領(lǐng)域的業(yè)務(wù)數(shù)據(jù);
- 其他數(shù)據(jù),如與政務(wù)大數(shù)據(jù)相關(guān)的互聯(lián)網(wǎng)、工業(yè)、商業(yè)等數(shù)據(jù)。
五、常見的數(shù)據(jù)質(zhì)量稽核規(guī)則示例
- 數(shù)據(jù)完整性:確保數(shù)據(jù)的所有字段都有值,且符合業(yè)務(wù)規(guī)定
- 數(shù)據(jù)準(zhǔn)確性:確保數(shù)據(jù)的值與實(shí)際情況一致,無錯(cuò)誤或誤差
- 數(shù)據(jù)一致性:確保不同源的數(shù)據(jù)在各個(gè)系統(tǒng)中相互一致
- 數(shù)據(jù)及時(shí)性:確保數(shù)據(jù)及時(shí)采集、更新和傳輸,以滿足業(yè)務(wù)需求
- 數(shù)據(jù)可靠性:確保數(shù)據(jù)的來源可靠,數(shù)據(jù)的存儲(chǔ)和傳輸過程安全可靠
- 數(shù)據(jù)有效性:確保數(shù)據(jù)滿足使用者的需求和標(biāo)準(zhǔn),不包含無效或重復(fù)數(shù)據(jù)
- 數(shù)據(jù)唯一性:確保數(shù)據(jù)的主鍵或索引字段唯一,避免重復(fù)錄入和重復(fù)使用
OK,今日就講到這里,這么多內(nèi)容相信都?jí)蚋魑恍』锇橄惠喠?,收藏起來慢慢看,總的來說,小編認(rèn)為,互聯(lián)網(wǎng)產(chǎn)品經(jīng)理在AI的迅速崛起的背景下,數(shù)據(jù)產(chǎn)品經(jīng)理是除AI產(chǎn)品經(jīng)理外能夠存活且有一定價(jià)值的崗位。
本文由@樂少有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!