數(shù)據(jù)和算法的相愛相殺(一):獲取數(shù)據(jù)要注意什么?
作者接下來將用幾篇文章能夠給大家由淺入深的談?wù)剬?duì)數(shù)據(jù)和算法的認(rèn)識(shí),希望大家能對(duì)數(shù)據(jù)和算法有基本全面的認(rèn)識(shí),常用領(lǐng)域和技巧,數(shù)據(jù)的獲取注意事項(xiàng),常見的算法的理念和用處。本文是第一篇。
大數(shù)據(jù)自2000年以后,隨著數(shù)據(jù)積累和數(shù)據(jù)處理的能力指數(shù)級(jí)提高,大數(shù)據(jù)雨后春筍般從理論走向了實(shí)踐。尤其是Google、Facebook、Amazon、oracle等公司,在國(guó)際上率先開展了大數(shù)據(jù)相關(guān)的業(yè)務(wù),或用于公司內(nèi)部的使用或?qū)ν忾_放能力。大數(shù)據(jù)就這么火起來了。
這時(shí)大部分局外人尚處于對(duì)大數(shù)據(jù)的敬畏無措之中,只知數(shù)據(jù)之大,不知算法之艱。隨著人工智能打開了人們新世界的大門,機(jī)器學(xué)習(xí)尤其是神經(jīng)網(wǎng)絡(luò)等算法被大眾所知,算法也終于和數(shù)據(jù)站到同一個(gè)高度,被人關(guān)注。
時(shí)至今日,沒有人敢輕視數(shù)據(jù)和算法的重要性,計(jì)算機(jī)的信息化將這個(gè)物體的世界抽象成了信息,大數(shù)據(jù)將信息抽象成了更小粒度的信息,算法讓我們認(rèn)識(shí)到了數(shù)據(jù)的復(fù)雜性和規(guī)律性。算法看到了一般人看不到的東西,算法做出了一般人想不到的預(yù)測(cè),算法提出了一般人提不出的警告??梢赃@么說數(shù)據(jù)是人體的軀干,而算法則是人體的大腦。
數(shù)據(jù)在百科的解釋是:
數(shù)據(jù)(data)是事實(shí)或觀察的結(jié)果,是對(duì)客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的的原始素材。
數(shù)據(jù)可以是連續(xù)的值,比如聲音、圖像,稱為模擬數(shù)據(jù)。也可以是離散的,如符號(hào)、文字,稱為數(shù)字?jǐn)?shù)據(jù)。
在計(jì)算機(jī)系統(tǒng)中,數(shù)據(jù)以二進(jìn)制信息單元0、1的形式表示。其實(shí)數(shù)據(jù)并不神秘,獲取也不艱難,相信瀏覽這篇文章的產(chǎn)品經(jīng)理或多或少的都與數(shù)據(jù)打過交道。我在這文章余下的部分就重點(diǎn)講一下獲取數(shù)據(jù)應(yīng)該注意的事項(xiàng)。
1、如何讓你的用戶或者客戶樂意分享自己的數(shù)據(jù)
在之前的工業(yè)社會(huì)中,為了提高單位時(shí)間內(nèi)的產(chǎn)量,我們的產(chǎn)品也來越標(biāo)準(zhǔn)化,進(jìn)入互聯(lián)網(wǎng)時(shí)代這種思維也延續(xù)下來,但是隨著產(chǎn)能過剩和人差異化的需求,我們需要提供越來越多差異化的服務(wù)和產(chǎn)品,這就要求我們要足夠了解在互聯(lián)網(wǎng)另一端的人,基于此,千人千面,差異化服務(wù)越來越受到到家的重視。而這一切都有一個(gè)起點(diǎn):用戶必須自愿或者不得不分享他們的信息,我認(rèn)為可以分為以下幾個(gè)方面:
- 利益交換——用戶分享了自己的信息能獲得什么,我為什么要給你信息?
- 設(shè)計(jì)產(chǎn)品信任路徑——你是否在整個(gè)用戶歷程中設(shè)計(jì)了重要的信任構(gòu)建時(shí)刻?
- 分享信息不等于泄露隱私,你的產(chǎn)品能否讓用戶覺得你尊重他的隱私——你的產(chǎn)品圍繞隱私的行動(dòng)是否與自身的價(jià)值觀一致?
2、做到數(shù)據(jù)規(guī)整,這在后面的挖掘中至關(guān)重要
你的數(shù)據(jù)必須是規(guī)整的,我的建議是在一個(gè)平臺(tái)內(nèi),或者多個(gè)平臺(tái)內(nèi)。對(duì)于國(guó)標(biāo)數(shù)據(jù)優(yōu)先使用國(guó)標(biāo)數(shù)據(jù),如果沒有國(guó)標(biāo)數(shù)據(jù)則參考行業(yè)標(biāo)準(zhǔn)或者根據(jù)自己的情況實(shí)際設(shè)立標(biāo)準(zhǔn),并在不同的平臺(tái)之間共用這一套標(biāo)準(zhǔn),這是為了確保后面可能進(jìn)行數(shù)據(jù)統(tǒng)一化挖掘的過程中統(tǒng)一計(jì)量單位。
同時(shí)對(duì)于常見的計(jì)量單位優(yōu)先使用國(guó)內(nèi)的標(biāo)準(zhǔn),我國(guó)的計(jì)量單位多與國(guó)際計(jì)量單位相同,這是一個(gè)優(yōu)勢(shì)。比如可以用 米
就別用英尺。
還有數(shù)據(jù)形式和規(guī)范,或者說數(shù)據(jù)類型,有些是離散化的數(shù)據(jù)(參加活動(dòng)的人數(shù)),有些是連續(xù)型的數(shù)據(jù)(比如身高,體重),有些是有限集的,而這些集合基本能被有序排列。統(tǒng)一規(guī)范和形式,這對(duì)后面算法的設(shè)計(jì)至關(guān)重要。
在開發(fā)過程中,往往和實(shí)際情況下的數(shù)據(jù)分布不同。例如也許你想把用戶按照體重劃分為“胖”“適中”“瘦”三檔,但如果系統(tǒng)開發(fā)時(shí)使用的數(shù)據(jù)集里最低用戶的體重是80kg,那最后的分析結(jié)果里可能會(huì)有一個(gè)160斤的瘦子。
3、數(shù)據(jù)缺失了怎么辦
在我們的產(chǎn)品數(shù)據(jù)庫(kù)中數(shù)據(jù)缺失是很正常的,沒有一個(gè)產(chǎn)品數(shù)據(jù)百分之百健全的,實(shí)際過程中,我們有兩種策略,一種是直接全部丟棄參閱嚴(yán)重的數(shù)據(jù)列;另外一種就是想辦法補(bǔ)全這些缺失的數(shù)據(jù),去數(shù)據(jù)列中數(shù)據(jù)的均值填充進(jìn)行,實(shí)際上我們應(yīng)該清楚無論哪種一種方式,都會(huì)對(duì)接下來分析的準(zhǔn)確性造成影響。
4、為什么要盡可能的提高數(shù)據(jù)的規(guī)模
數(shù)據(jù)規(guī)模影響可以分三個(gè)方面來分析:
- 數(shù)據(jù)規(guī)模會(huì)影響算法的計(jì)算時(shí)間,算法的效率決定了用戶在使用過程中的體驗(yàn)狀況。
- 數(shù)據(jù)規(guī)模對(duì)于算法的精準(zhǔn)度有至關(guān)重要的影響。
- 數(shù)據(jù)達(dá)到一定的規(guī)模后可以掩蓋數(shù)據(jù)缺失造成的影響。
5、不要讓數(shù)據(jù)的預(yù)測(cè)去迎合你
產(chǎn)品或者運(yùn)營(yíng)人員經(jīng)常會(huì)基于自己的主觀認(rèn)識(shí),嘗試去預(yù)測(cè)當(dāng)前的用戶情況,交易情況等。但是在大量的數(shù)據(jù)集合中,人類基本已經(jīng)喪失了尋找規(guī)律,需找特征的能力,所以不要嘗試和數(shù)據(jù)的預(yù)測(cè)作對(duì)。因?yàn)榇髷?shù)據(jù)總輸入信息間形成的組合關(guān)系會(huì)快速增加,這讓人很難像對(duì)中等數(shù)據(jù)集合那樣能夠?qū)ζ渲幸徊糠謹(jǐn)?shù)據(jù)進(jìn)行抽樣觀察。
更麻煩的是,特征數(shù)量增加時(shí)人類對(duì)數(shù)據(jù)的直覺會(huì)迅速降低。例如在高維空間里,多元高斯分布并不是沿著均值分布,而是像一個(gè)扇貝形狀圍繞在均值附近,這和人們的主觀感受完全不同。在低維空間中建立一個(gè)分類器并不難,但是當(dāng)維度增加時(shí),人類就很難直觀的理解了。(舉例來自直接搬磚,向不知名人士表示感謝)
6、回答一下程序員哥哥們的提問(產(chǎn)品止步)
在JSON數(shù)據(jù)獲取中,ajax后臺(tái)獲取數(shù)據(jù)之后,在前臺(tái)返回的時(shí)候,有時(shí)候顯示的是雜亂無章的信息,并非你想要的,其一的原因是一定要 response.getWriter.print() 后response.getWriter.flush (),然后 response.getwriter.close()。
如有不同意見,歡迎拍磚。將繼續(xù)更新,請(qǐng)大家關(guān)注。
本文由 @沒空兒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
噢