人機(jī)耦合時(shí)代下的數(shù)據(jù)眾包產(chǎn)業(yè)化

1 評論 8102 瀏覽 27 收藏 11 分鐘

隨著數(shù)據(jù)眾包產(chǎn)業(yè)的不斷崛起,本文從數(shù)據(jù)眾包產(chǎn)業(yè)化中的不同板塊進(jìn)行解析,為我們分享數(shù)據(jù)眾包產(chǎn)業(yè)化的行業(yè)發(fā)展以及發(fā)展特征。

在互聯(lián)網(wǎng)有一種新的產(chǎn)業(yè)正在興起,那就是——數(shù)據(jù)眾包。要想深入了解什么是數(shù)據(jù)眾包就要從它的客戶需求聊起:

“數(shù)據(jù)眾包”的金主爸爸:產(chǎn)業(yè)上游AI

人工智能(Artificial Intelligence),它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。AI是目前對數(shù)據(jù)需求量最大的客戶,并且都是大型公司,小企業(yè)由于各方面資源的限制很少會使用大數(shù)據(jù)進(jìn)行研究。

AI是一個(gè)新領(lǐng)域么?

不是,AI是計(jì)算機(jī)科學(xué)的一個(gè)分支,AI一詞最初是在1956 年Dartmouth學(xué)會上提出。從神經(jīng)網(wǎng)絡(luò)到人機(jī)耦合,當(dāng)前的AI研究更著眼于從人類產(chǎn)生的數(shù)據(jù)中分析算法來訓(xùn)練計(jì)算機(jī)從事人的工作。

AI現(xiàn)在能做什么?

  • 解放工業(yè)生產(chǎn)力:應(yīng)用于工業(yè)領(lǐng)域,例如:使用AI處理工業(yè)數(shù)據(jù)或機(jī)器人操作。
  • 人臉識別與監(jiān)控:應(yīng)用于國防安保、金融加密等。
  • 服務(wù)行業(yè):智能語音(聊天)機(jī)器人替代人類從事24小時(shí)客服工作、電話銷售、家庭陪伴等。
  • 其他:在汽車、醫(yī)療、設(shè)計(jì)、廣告、影視等領(lǐng)域輔助人類進(jìn)行工作。

“數(shù)據(jù)眾包”的甲方大佬:機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是AI的一個(gè)分支。機(jī)器學(xué)習(xí)使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對世界上的某件事情做出決定或預(yù)測。機(jī)器學(xué)習(xí)與軟件編程最大的區(qū)別是——機(jī)器學(xué)習(xí)是在教計(jì)算機(jī)如何開發(fā)一個(gè)算法來完成任務(wù)而不是編寫程序讓計(jì)算機(jī)執(zhí)行任務(wù)。機(jī)器學(xué)習(xí)使用分類和回歸、聚類和降維、以及歷史經(jīng)驗(yàn)達(dá)到學(xué)習(xí)的目的。

Python

目前做人工智能的公司基本上選擇的都是Python語言。Python是一門解釋型編程語言,方便調(diào)試而且可以跨平臺。Python語言具有豐富的第三方程序庫,一些平臺會面向互聯(lián)網(wǎng)用戶提供機(jī)器學(xué)習(xí)的Python應(yīng)用編程接口。Python也有豐富完整的開源工具包。機(jī)器學(xué)習(xí)中最常用的一些庫:Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大數(shù)據(jù)

大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。

大數(shù)據(jù)的5V特點(diǎn)(IBM提出):

  • Volume(大量)
  • Velocity(高速)
  • Variety(多樣)
  • Value(低價(jià)值密度)
  • Veracity(真實(shí)性)

數(shù)據(jù)就像是機(jī)器學(xué)習(xí)的燃料,5V的程度越高機(jī)器學(xué)習(xí)的效果越好。

數(shù)據(jù)服務(wù)產(chǎn)業(yè)化——產(chǎn)業(yè)下游眾包模式

為了給機(jī)器學(xué)習(xí)提供充足的數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證,研究人員需要大量的原始數(shù)據(jù)和標(biāo)準(zhǔn)化數(shù)據(jù)。提供數(shù)據(jù)眾包服務(wù)的平臺也就應(yīng)運(yùn)而生。

目前BAT都有了自己的數(shù)據(jù)眾包服務(wù)平臺/服務(wù):百度數(shù)據(jù)眾包平臺、阿里人工智能眾包(公測)、騰訊數(shù)據(jù)標(biāo)注采集服務(wù)。

其他比較知名的眾包平臺還有:螞蟻眾包、有道AI眾包(目前新用戶停止審核)、華為數(shù)據(jù)眾包、Testin云測、來打標(biāo)數(shù)據(jù)平臺。

百度數(shù)據(jù)眾包服務(wù)(圖片來自官網(wǎng))

數(shù)據(jù)眾包服務(wù)的形式

數(shù)據(jù)眾包服務(wù)分為個(gè)人分包和企業(yè)分包兩種。

個(gè)人分包

即服務(wù)商運(yùn)營眾包平臺/app面向普通大眾分派任務(wù),服務(wù)商提供便捷易學(xué)習(xí)的數(shù)據(jù)標(biāo)注/拍攝/識別工具,對接包者進(jìn)行培訓(xùn)和訓(xùn)練以達(dá)到可以提供標(biāo)準(zhǔn)數(shù)據(jù)服務(wù)的目的,接包者大多是兼職人群,可以提供簡單的操作獲取回報(bào)。

個(gè)人分包的好處是:價(jià)格便宜,服務(wù)商可以以低廉的價(jià)格獲取處理結(jié)果。

企業(yè)分包

即服務(wù)商將數(shù)據(jù)任務(wù)包分派給合作商,由合作商完成并提供返回符合要求的處理結(jié)果。目前阿里和騰訊基本采用這種眾包方式。

企業(yè)分包的好處是:易管理,服務(wù)商無需分派過多人手進(jìn)行分包、驗(yàn)收等工作。

專職分包商即接包的企業(yè),他們與大數(shù)據(jù)服務(wù)商進(jìn)行合作,接到任務(wù)后或自己組織人手處理數(shù)據(jù)、或運(yùn)營平臺分配給其他個(gè)人或更小的專職分包商。

眾包平臺對上游的依賴

眾包平臺上的原始“發(fā)包方“基本為BAT以及幾個(gè)走在AI領(lǐng)域前沿的大型公司,所以第三方的眾包平臺對上游的依賴嚴(yán)重,即失去“發(fā)包方”后難以再利用手中的資源創(chuàng)造新的市場。通過眾包形式來采集的數(shù)據(jù)質(zhì)量參差不齊,即使眾包平臺對采集到的數(shù)據(jù)進(jìn)行清洗、整理,仍然無法提高其與適用場景的契合度,這也制約了眾包數(shù)據(jù)毛利率上升空間。

眾包平臺對地域的要求

大多數(shù)數(shù)據(jù)都以文字、音頻、視頻的形式保存,所以眾包平臺很難達(dá)到跨國經(jīng)營。所以歐美國家一些成熟的數(shù)據(jù)眾包公司始終沒有進(jìn)入中國市場,相比適應(yīng)中文,他們更愿意嘗試?yán)∥恼Z言市場。

而由于我國方言種類繁多,數(shù)據(jù)眾包是否具有嚴(yán)格的地域性標(biāo)準(zhǔn)還未可知,我們僅知道目前語音翻譯軟件公司對此有采集要求。

眾包平臺自拓市場

為了能夠擺脫“發(fā)包方”的絕對控制,眾包平臺只能研發(fā)新的服務(wù)項(xiàng)目。拓展新的服務(wù)對象就是延伸眾包數(shù)據(jù)市場的一個(gè)新手段。

協(xié)助政府監(jiān)控

在過去的幾十年中,政府的數(shù)據(jù)來源都是自下而上的匯報(bào),部分?jǐn)?shù)據(jù)來自于調(diào)研。在這個(gè)長長的匯報(bào)鏈條中,如何避免利益相關(guān)者的干擾,如何得到一手真是數(shù)據(jù)是一個(gè)大問題。數(shù)據(jù)眾包服務(wù)可以發(fā)送全民提供數(shù)據(jù),即使有部分?jǐn)?shù)據(jù)失真,也能保證大數(shù)據(jù)具有參考價(jià)值。

美國公司Premise Data通過上萬名兼職人員,以拍照等形式采集商品的價(jià)格。這些數(shù)據(jù)經(jīng)過整理后被賣給政府部門用于監(jiān)控市場上各類商品的價(jià)格變動。Premise Data在2017年的估值大約為3.75億美元。

盤活傳統(tǒng)企業(yè)數(shù)據(jù)

傳統(tǒng)企業(yè)在經(jīng)營過程中會產(chǎn)生大量生產(chǎn)數(shù)據(jù),這些數(shù)據(jù)可能就此沉默在檔案庫和電腦中。眾包數(shù)據(jù)服務(wù)給了這些數(shù)據(jù)盤活的機(jī)會。人工分類、人工標(biāo)注是遠(yuǎn)超程序的數(shù)據(jù)清洗手段,但由于其需要的人力資源巨大,一般企業(yè)難以承受。眾包平臺可以通過培訓(xùn)、考核等方法將這一枯燥的工作包裝成兼職,以低價(jià)獲得高質(zhì)量數(shù)據(jù)。

各大眾包平臺/產(chǎn)品

我們可以看出來目前數(shù)據(jù)眾包是一個(gè)大魚吃小魚,小魚吃蝦米的產(chǎn)業(yè)鏈。作為一項(xiàng)操作簡單,人人皆可參與的工作,數(shù)據(jù)眾包在未來可能會遍地開花,一人一臺電腦或者一部手機(jī)就可以開設(shè)一個(gè)數(shù)據(jù)小作坊。

在打字錄入逐漸被計(jì)算機(jī)替代的今天,數(shù)據(jù)標(biāo)注、數(shù)據(jù)識別等需要人腦進(jìn)行“無計(jì)算感官識別”的工作仍然無法被機(jī)器代替。這一新興的、面向“低端”勞務(wù)市場的領(lǐng)域目前還在藍(lán)海階段,在中國這樣的人口大國如果能設(shè)計(jì)出一條“數(shù)據(jù)處理流水線”,也許就能在這個(gè)人機(jī)耦合時(shí)代下打造一個(gè)面向全球的數(shù)據(jù)“富士康”代工廠。

#專欄作家#

無問西東,人人都是產(chǎn)品經(jīng)理專欄作家。工商管理碩士,貓奴一枚。主導(dǎo)過金融公司臺賬系統(tǒng)、多公司OA系統(tǒng);參與過二手車平臺、P2P平臺設(shè)計(jì)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 贊!

    來自吉林 回復(fù)