數(shù)據(jù)科學家每天都在做些什么?
![](http://image.woshipm.com/wp-files/img/100.jpg)
寫文章揭密數(shù)據(jù)科學家,這事幾乎已經(jīng)發(fā)展成了一種產(chǎn)業(yè)。
關(guān)于數(shù)據(jù)科學家的困惑很大部分歸咎于:數(shù)據(jù)科學不是一個具體的職務,而是一種在機構(gòu)中解決問題的方法。因此,數(shù)據(jù)科學可以包含多種教育背景、技能、工具、實踐。實際工作中的數(shù)據(jù)科學家們,背景和技能的跨度很大,很難被一概而論。
相對而言,描述數(shù)據(jù)科學的實踐是什么樣的可能更容易。
簡單地說,數(shù)據(jù)科學是用數(shù)據(jù)主導的答案解決實際問題的實踐。實現(xiàn)這個目標的技術(shù)可能多種多樣。你會常常聽到數(shù)據(jù)科學家使用傳統(tǒng)統(tǒng)計學、貝葉斯方法、機器學習、計算工具、行業(yè)領(lǐng)域知識來回答問題。
有時數(shù)據(jù)的規(guī)模會非常巨大,需要使用復雜的工具和方法來穿過迷霧,得到隱藏在數(shù)據(jù)中的清晰結(jié)論。但是沒有哪個方法、工作、算式能回答所有問題,所以也很難為數(shù)據(jù)科學家下定義。
展示可能比陳述更有說服力。就讓我們來走入數(shù)據(jù)科學家平凡又不平凡的一天。
早晨
早晨的第一件事可能是這一天日程中為數(shù)不多的慣例。
我們的團隊在早上進行例會,分享前一天的進展和問題。這和軟件開發(fā)的“站立”會議可能有點不同。對我們來說,“進展”既可以是建設(shè)了一部分軟件,也可以是閱讀了一篇可以讓我們對手頭問題有更深理解的論文。
數(shù)據(jù)科學可能在許多方面與大學里的學術(shù)行為不同,但它依然是對科學方法的合理運用。
通常,我們的挑戰(zhàn)是如何把“未知”變成“已知”。不僅如此,還要讓它“可執(zhí)行”。
這意味著通過分析數(shù)據(jù)檢驗某個假設(shè),建立測量效果的方法,對這個過程進行迭代,直到最終的研究結(jié)果被修正到足夠有用的水平。晨會是一個交流各個試驗進展的機會。
上午
現(xiàn)在我們有了各自的任務。是時候做一點實際工作了。這是一天中最有趣的部分。這是我坐下來專注于一個實際問題的時候。
這可能意味著研究處理偶圖的方法,或者寫一些代碼計算高斯超幾何函數(shù)。但每個星期面對的問題很少相同。擁有數(shù)學、統(tǒng)計、編程的背景對解決這些問題來說很重要,但仍然不夠。成為每種方法的專家是不可能的。下一個問題將需要什么知識也是無法預知的。
這就是為什么數(shù)據(jù)科學家需要不斷學習和無窮的好奇心。
多數(shù)情況下,每個新問題需要一種新方法。這些方法不僅對你來說是新的,對整個世界來說也是新的。這是數(shù)據(jù)科學的挑戰(zhàn)之處和刺激來源。
不確定性不僅是一種統(tǒng)計學的屬性,也是一種生活方式。
午間
數(shù)據(jù)科學的實踐不止于應用某些算法的技術(shù)細節(jié),或是在白板上寫出高深的算式。
歸根結(jié)底,我們要解決現(xiàn)實生活中的問題。這意味著理解其他人面對的問題。午間是跟客戶、商業(yè)拓展部門、服務部門以及任何對我們客戶和合伙人每天面對的問題有全面了解的人士碰面的好時候。
大數(shù)據(jù)分析和機器學習的力量如果不能為他人創(chuàng)造便利就沒太大意義。這是數(shù)據(jù)科學中一個重要的,但是常被忽略的步驟。它決定一個項目最終的成敗。這也是區(qū)分數(shù)據(jù)科學與傳統(tǒng)學術(shù)的一點。
把一個業(yè)務問題翻譯成一個縝密的研究項目,再把研究結(jié)果翻譯成一個實際的解決方案,這需要對業(yè)務的深入理解,以及大量的創(chuàng)造力。
閉門造車,沒完沒了做算法調(diào)優(yōu)的數(shù)據(jù)科學團隊永遠不會成功。的確,有時為了讓一個項目最終交付需要這么做。但如果這些都不能投入實際應用還有什么意義?
數(shù)據(jù)能告訴我們的關(guān)于世界的知識與數(shù)據(jù)本身中間存在一道鴻溝。與一線工作人員保持良好的交流關(guān)系,是彌補這一鴻溝的唯一方式。
下午
我們已經(jīng)卷起袖子,從技術(shù)和實際的層面鉆研了問題。是時候退一步,思考一下全局了。
我們常常在下午花些時間詳細討論某個項目的目標,或者探討把一個研究項目變成可交付的形式所需的剩余步驟。
與產(chǎn)品團隊的密切交流可以確保我們的工作與機構(gòu)的總體愿景/目標保持一致。確保專注于關(guān)鍵問題是很重要的。由于我們的工作是解決問題,所以必須確保解決方案行得通。我的意思是,在實際工作中行得通。根據(jù)特定業(yè)務提供解決方案只是個開始。
我們需要建立可靠的、可重復使用的工具。
這既包括把一個試驗推廣到更多的實用案例,也包括構(gòu)造一個能夠深入產(chǎn)品的解決方案。
這個環(huán)節(jié)是我們最像軟件開發(fā)者的部分,考慮并編寫一些測試來確保表現(xiàn)、穩(wěn)定性、擴展性。我們在Umbel的軟件工程團隊負責建立宏大的系統(tǒng),我們不能扔給他們額外的工作,讓他們?yōu)槲覀兪帐盃€攤子。
把這些試驗變成軟件的一個功能,唯一的辦法是在項目全程時刻想著這個目標。這也就是為何研究階段不應只包含數(shù)學。
我們需要知道我們不僅能解決某個問題,還能現(xiàn)實的限制中構(gòu)造軟件來解決這個問題。
結(jié)束這一天
經(jīng)歷了所有這些之后,有必要深吸一口氣,看看自己究竟走了多遠。有些日子會比其他日子走的更遠。大多數(shù)試驗則以失敗告終。
多數(shù)解決方案在最終展示之前需要調(diào)整打磨。通常很少有什么能保證你選擇的路線是對的。開天辟地的過程始終伴隨著不確定性。但這個過程中的每天,你都會學到新東西。這一天的結(jié)尾,我們反思我們學到了什么,并把這有關(guān)世界的新知識帶到明天的晨會。
經(jīng)過足夠的努力,我們最終獲得針對特定問題的直接可行的答案。
我們可以對這個答案充滿自信,因為它由數(shù)據(jù)嚴謹?shù)刂?。這個時候,我們還是沒有結(jié)束代碼的編寫。正如我之前所說,數(shù)據(jù)科學項目的一個關(guān)鍵環(huán)節(jié)是把最終結(jié)果翻譯成有意義、實用的東西。
我們需要把我們學到的東西有效地傳達給不同背景的受眾。最終,我們需要利用數(shù)據(jù)講一個故事。跟其他環(huán)節(jié)一樣,這個環(huán)節(jié)沒有什么唯一的正確方法。這個環(huán)節(jié)中我們尋找用圖表把結(jié)果可視化的方法,或者在一個平面展示從問題到解答的各個環(huán)節(jié),或者僅僅是宣布“好的,我們需要做的事是這樣的?!?/p>
這里的關(guān)鍵在于,在結(jié)束時,每個人都能理解要做什么以及為什么這么做。
結(jié)語
你可能見過網(wǎng)上流傳的那些展示數(shù)據(jù)科學家需要多少種交叉技能的圖片。
他們會告訴你數(shù)據(jù)科學家是一個天生就是數(shù)學家的軟件工程師,或者一名喜歡在周末把自己消耗的咖啡數(shù)量做成的精美可視化項目的MBA。
希望這個有關(guān)數(shù)據(jù)科學家日常的探討能讓你明白這些圖片是怎么來的。但數(shù)據(jù)科學不是對某種工作的描述,它是一個過程。的確,你需要上面提到的技能,甚至更多技能來成功實現(xiàn)一個數(shù)據(jù)科學項目。
不過,不要認為你需要什么事都一個人完成。數(shù)據(jù)科學,如同任何其他復雜的努力一樣,是團隊協(xié)作。這也就是為什么你很少看見兩個履歷相同的數(shù)據(jù)科學家。一個優(yōu)秀的數(shù)據(jù)科學團隊應囊括所有這些技能,擁有專家和通才,每個成員都有強烈的好奇心。
如果有某件事情是數(shù)據(jù)科學家必須擅長的,那就是學習。
原作者:KEVIN SAFFORD
本文由 @數(shù)據(jù)工匠 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理?,未經(jīng)許可,禁止轉(zhuǎn)載。
原文地址:https://www.umbel.com/blog/big-data/what-does-data-scientist-do-all-d
- 目前還沒評論,等你發(fā)揮!