數(shù)據(jù)缺少怎么辦?四個(gè)小方法與你分享
編輯導(dǎo)讀:做數(shù)據(jù)類的項(xiàng)目有一個(gè)逃不開(kāi)的問(wèn)題:沒(méi)有數(shù)據(jù)怎么辦?巧婦難為無(wú)米之炊,沒(méi)有數(shù)據(jù),可以造、可以找、可以搜集。本文作者分享了四個(gè)小技巧,希望對(duì)你有幫助,一起來(lái)看看吧。
做數(shù)據(jù)類的項(xiàng)目,解決業(yè)務(wù)問(wèn)題,以及深入研究某項(xiàng)數(shù)據(jù)應(yīng)用的過(guò)程中,我們通常遇到的最大的問(wèn)題就是沒(méi)有數(shù)據(jù),沒(méi)有數(shù)據(jù),沒(méi)有數(shù)據(jù)。
特別是在數(shù)據(jù)應(yīng)用方面,不僅是一個(gè)沒(méi)有數(shù)據(jù)成了我們的難點(diǎn),數(shù)據(jù)量少也是難點(diǎn)之一。這個(gè)問(wèn)題一直在困擾著我,甚至因?yàn)檫@個(gè)問(wèn)題,我還經(jīng)常被領(lǐng)導(dǎo)吐槽什么也做不出來(lái),我有苦說(shuō)不出,左右為難,想起來(lái)這段日子真的是苦不堪言,巧婦難為無(wú)米之炊??!
于是我想了很多折中的方案,下面是我解決這些問(wèn)題的小方法,分享給你。
一、造數(shù)據(jù),先有再優(yōu)
如果說(shuō)我們有時(shí)候會(huì)遇到某個(gè)業(yè)務(wù)剛剛搭建,還未來(lái)得及搜集較多的數(shù)據(jù),或者是只有極少的數(shù)據(jù),更有甚者一點(diǎn)數(shù)據(jù)都沒(méi)有,這個(gè)方法也可以先用起來(lái),那就是先根據(jù)業(yè)務(wù)邏輯造仿真數(shù)據(jù)實(shí)施。
第一步,拿到業(yè)務(wù)數(shù)據(jù)庫(kù)的表結(jié)構(gòu)。表結(jié)構(gòu)是一張數(shù)據(jù)表的基礎(chǔ),可以理解為在一張Excel表格里表格的標(biāo)題。表結(jié)構(gòu)提供了業(yè)務(wù)內(nèi)容的字段、數(shù)據(jù)類型、數(shù)據(jù)格式,根據(jù)表結(jié)構(gòu)造出來(lái)的數(shù)據(jù)才更加符合業(yè)務(wù)邏輯。如果業(yè)務(wù)有多張表,那么還需要拿到表的關(guān)聯(lián)關(guān)系,也就是ER圖。
退一萬(wàn)步講,如果我們連表結(jié)構(gòu)都拿不到的話,那就盡力拿到建表的SQL腳本,然后根據(jù)SQL腳本自造表結(jié)構(gòu),這樣做就是造出來(lái)的數(shù)據(jù)精準(zhǔn)度又會(huì)降低一個(gè)檔次。無(wú)論如何先行動(dòng)起來(lái),才知道會(huì)遇到什么問(wèn)題。
第二步,開(kāi)始造數(shù)據(jù)。現(xiàn)在市面上存在很多造數(shù)據(jù)的工具,產(chǎn)品經(jīng)理協(xié)調(diào)好技術(shù)小伙伴造數(shù)據(jù)需要的東西之后,就可以交給他們開(kāi)始造數(shù)據(jù)了。有時(shí)候造出來(lái)的數(shù)據(jù)會(huì)存在偏差比較大,然后再手動(dòng)調(diào)整造的數(shù)據(jù)即可。
利用這個(gè)方法先做出符合業(yè)務(wù)需要的數(shù)據(jù),拿著這些數(shù)據(jù)試試能否解決問(wèn)題,如果說(shuō)相差比較大,那就繼續(xù)優(yōu)化造出來(lái)的數(shù)據(jù),直至根據(jù)經(jīng)驗(yàn)和試驗(yàn)對(duì)比預(yù)估誤差值減少。先有再優(yōu)!
二、求助內(nèi)部團(tuán)隊(duì),幫忙干點(diǎn)小活
如果說(shuō)我們?cè)斓姆抡鏀?shù)據(jù)難以令領(lǐng)導(dǎo)信服,那么就動(dòng)手造一些相當(dāng)真實(shí)的業(yè)務(wù)數(shù)據(jù)吧。
拿我做過(guò)的一個(gè)案例舉例。
我們想要做景區(qū)客流量監(jiān)測(cè)的應(yīng)用,我去找了很多景區(qū)客流量的圖片,然后一個(gè)個(gè)打點(diǎn)人頭像,給算法團(tuán)隊(duì)做數(shù)據(jù)集。但是僅靠我一個(gè)人,要是做出足夠算法團(tuán)隊(duì)使用的數(shù)據(jù)量,那估計(jì)要累到吐血了。
熟悉內(nèi)幕的小伙伴可能都知道,類似這樣的工作是有專門的數(shù)據(jù)供應(yīng)公司把這部分工作外包出去,或者是經(jīng)常發(fā)布一些兼職找人干,成熟的數(shù)據(jù)標(biāo)注人員一天可以看超過(guò)10 000張圖片,所以如果有50個(gè)人參與到標(biāo)注中,兩天就可以標(biāo)注超過(guò)百萬(wàn)的圖片。
But,尷尬的是我們也沒(méi)有錢去找那么多外包小伙伴來(lái)干。于是我就發(fā)動(dòng)了我們團(tuán)隊(duì)的UI、技術(shù)、算法工程師一起完成這個(gè)工作,雖然大家不像成熟的標(biāo)注員那樣一天一萬(wàn)張圖片,但是標(biāo)注出來(lái)的數(shù)據(jù)集也暫時(shí)足夠使用了。當(dāng)然,作為產(chǎn)品經(jīng)理也不能讓人家白干活,我也拿出了產(chǎn)品經(jīng)理的利器:請(qǐng)大家喝奶茶?。。?/p>
三、利用”搜商“,借力外部數(shù)據(jù)
”搜商“這個(gè)詞,不知道大家都聽(tīng)說(shuō)沒(méi)有。我第一次聽(tīng)到這個(gè)詞的時(shí)候,頓時(shí)覺(jué)得除了情商、智商,搜商對(duì)一個(gè)產(chǎn)品經(jīng)理來(lái)說(shuō)也很重要?,F(xiàn)在是信息爆炸的時(shí)代,想要什么信息都能找到。
我們能搞到數(shù)據(jù)的方法還有很多,隨便百度搜一下會(huì)發(fā)現(xiàn)有各種各樣類型的數(shù)據(jù)共享網(wǎng)站。
這里給大家三種類型的數(shù)據(jù)共享平臺(tái)!
1. 免費(fèi)的科研數(shù)據(jù)共享平臺(tái)
1)CCF科研數(shù)據(jù)庫(kù)
CCF科研數(shù)據(jù)庫(kù)主要就是把世界各地其他計(jì)算機(jī)方向研究團(tuán)隊(duì)免費(fèi)提供的數(shù)據(jù)收集起來(lái),把數(shù)據(jù)說(shuō)明簡(jiǎn)單翻譯一下,再免費(fèi)提供給中國(guó)學(xué)者。任何一個(gè)學(xué)者個(gè)人,都不太可能知道那么多的數(shù)據(jù)來(lái)源,更不可能有精力把這些數(shù)據(jù)分門別類整理得非常規(guī)范,使得查找和下載非??旖莞咝А?/p>
所以CCF做了大多數(shù)人不愿或不能做的苦活累活,通過(guò)服務(wù)需要數(shù)據(jù)的用戶收取會(huì)員服務(wù)費(fèi)。
2)國(guó)資平臺(tái)-國(guó)信優(yōu)易
國(guó)信優(yōu)易數(shù)據(jù)有限公司是由國(guó)家信息中心發(fā)起的混合所有制公司,主要是想把國(guó)家擁有的數(shù)據(jù)能夠用起來(lái),以數(shù)據(jù)資源和技術(shù)創(chuàng)新為驅(qū)動(dòng)力,助力國(guó)家級(jí)大數(shù)據(jù)創(chuàng)新創(chuàng)業(yè)的發(fā)展。
3)數(shù)據(jù)堂
數(shù)據(jù)堂其實(shí)之前是CCF的數(shù)據(jù)供應(yīng)商,后來(lái)成立成為一家專注互聯(lián)網(wǎng)綜合數(shù)據(jù)服務(wù)的公司。對(duì)它剛興趣的小伙伴可以去了解一下。
2. 政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)
如果說(shuō)CCF科研數(shù)據(jù)庫(kù)搜集的是世界各地的數(shù)據(jù),可能很多數(shù)據(jù)不符合中國(guó)市場(chǎng)環(huán)境,也有可能存在很多假數(shù)據(jù)。那么政府開(kāi)放的數(shù)據(jù),可信度以及可使用性就比較大了。
現(xiàn)階段各地政務(wù)數(shù)字化的建設(shè)如火如荼,沉淀了不少數(shù)據(jù),都是寶貝疙瘩,政府也想這堆寶貝能夠發(fā)揮作用。
已經(jīng)成立的有各種各樣的交易所。包括:貴陽(yáng)大數(shù)據(jù)交易所、上海數(shù)據(jù)交易中心、浙江大數(shù)據(jù)交易中心、華中大數(shù)據(jù)交易平臺(tái)……
類似于這樣的比較成熟的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)還有很多,以筆者接觸的項(xiàng)目來(lái)看,各個(gè)地方都在加緊建設(shè)這樣的平臺(tái)。如果去百度搜索的話,會(huì)有一大堆。
3. 全國(guó)可流通數(shù)據(jù)目錄平臺(tái)
如果說(shuō)政府開(kāi)放的數(shù)據(jù)也不夠用,數(shù)據(jù)類型都太偏向社會(huì)化了,需要一些商業(yè)化的數(shù)據(jù)。也不差錢,那么有一種叫做全國(guó)可流通數(shù)據(jù)目錄平臺(tái)的產(chǎn)品可以解決這個(gè)問(wèn)題。
這樣的一個(gè)平臺(tái)就類似于我們買衣服一樣,把數(shù)據(jù)作為一個(gè)商品售賣。企業(yè)或個(gè)人可以把自己擁有的可開(kāi)放的數(shù)據(jù)放到這個(gè)平臺(tái)售賣,也可以在這個(gè)平臺(tái)購(gòu)買自己需要的數(shù)據(jù),前提是不能違法。
這樣的平臺(tái)有:京東萬(wàn)象、數(shù)據(jù)星河、數(shù)據(jù)寶、阿里云數(shù)據(jù)市場(chǎng)、百度APIStore、數(shù)據(jù)淘、大海洋數(shù)據(jù)服務(wù)平臺(tái)……
更多的平臺(tái),可以百度一下,有心,總會(huì)找到!
四、巧妙的數(shù)據(jù)收集
著名的紅牛企業(yè)之前因?yàn)橐痪鋸V告語(yǔ)“紅牛給你一雙翅膀”而被起訴存在欺騙行為,喝了之后并沒(méi)有長(zhǎng)出一雙翅膀,要求賠償。最終紅牛企業(yè)和消費(fèi)者達(dá)成和解協(xié)議,同意賠償。
協(xié)議內(nèi)容是同意向2002年1月1日到2014年10月3日期間在美國(guó)購(gòu)買紅牛飲料的所有人支付賠償,不需要提供發(fā)票,只需要下載申請(qǐng)表填寫(xiě)信息即可得到賠償,而賠償金額是總共1300萬(wàn),每個(gè)人能得到的賠償金是總金額除以人數(shù)。這就類似于我們玩的支付寶集五福,淘寶雙十一瓜分20億紅包活動(dòng),可想而知每個(gè)人也分不了多少錢。
當(dāng)時(shí)美國(guó)人聽(tīng)說(shuō)這個(gè)協(xié)議之后,蜂擁而至,5天內(nèi)得到400多萬(wàn)申請(qǐng)表,留下了用戶的姓名、性別、銀行卡號(hào)、年齡、郵箱等數(shù)據(jù)。
就這樣,紅牛企業(yè)僅用3美元就巧妙的得到了海量的消費(fèi)者信息,而且絕對(duì)真實(shí)。
雖然我沒(méi)有用過(guò)這個(gè)方法,但是紅牛搜集數(shù)據(jù)的思路還是很值得我們借鑒的!
以上就是我總結(jié)的解決沒(méi)有數(shù)據(jù)問(wèn)題的小方法,可以造、可以找、可以搜集,總之一句俗話:活人還能被尿憋死嗎!希望對(duì)你有用!
本文由 @金豌豆?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Pexels,基于 CC0 協(xié)議
確實(shí)是,很多時(shí)候客戶有想法,在系統(tǒng)還沒(méi)接入,數(shù)倉(cāng)還沒(méi)影兒的時(shí)候就想看BI Demo。這時(shí)候只能基于經(jīng)驗(yàn)手動(dòng)弄些數(shù)據(jù),什么111,222,亂七八糟的假數(shù)據(jù)看起來(lái)就美觀度不夠了。所以造數(shù)據(jù),假數(shù)據(jù)有時(shí)候也是好的工作技巧。
很實(shí)用的文章,收藏了,之前經(jīng)常因?yàn)椴椴坏较嚓P(guān)數(shù)據(jù)抓耳撓腮,我一定好好提升搜商
謝謝
作者總結(jié)的解決沒(méi)有數(shù)據(jù)問(wèn)題的四個(gè)小方法,感覺(jué)很實(shí)用,值得借鑒。
仔細(xì)閱讀了文章,感覺(jué)收獲很多,從中學(xué)習(xí)到了一些方法,感謝作者的分享。
做數(shù)據(jù)類項(xiàng)目經(jīng)常會(huì)面臨找不到數(shù)據(jù)的情況,這篇文章太實(shí)用了,收藏收藏。