人生,就是一個(gè)數(shù)據(jù)挖掘
世界是連續(xù)的,人們?cè)噲D用離散的視角來(lái)解釋它。
世界在時(shí)空上都有它的連續(xù)性,當(dāng)我們抽出一個(gè)個(gè)時(shí)間點(diǎn)作參考分析,拿一個(gè)個(gè)事物分門別類,這是我們認(rèn)識(shí)世界最便捷的方式,但就因?yàn)檫@樣,世界是我們永遠(yuǎn)不可能窮舉的。為什么做數(shù)據(jù)挖掘和醫(yī)生看病一樣,永遠(yuǎn)沒(méi)有止境,那就是因?yàn)閿?shù)據(jù)就是病癥,這個(gè)世界上有無(wú)數(shù)接連不斷的、變異的病癥涌現(xiàn),數(shù)據(jù)亦如此。
熊輝老師認(rèn)為,數(shù)據(jù)挖掘有三層境界:“第一層,看山是山,看水是水;第二層,看山不是山,看水不是水;第三層,看山還是山,看水還是水?!?/strong>這參考的是宋代禪宗大師青原行思提出參禪的三重境界:“參禪之初,看山是山,看水是水;禪有悟時(shí),看山不是山,看水不是水;禪中徹悟,看山仍然山,看水仍然是水?!?/p>
初學(xué)之時(shí),面對(duì)茫茫數(shù)據(jù)卻不知如何看穿。行進(jìn)有時(shí),漸悟一二,能從數(shù)據(jù)中抽取其未間接表達(dá)的信息。而歷經(jīng)無(wú)數(shù)后,回歸本原,飛花摘葉,只一二法,變能斬獲至寶。此吾之理解數(shù)據(jù)挖掘三重進(jìn)階。 北美發(fā)達(dá)的商業(yè)交易市場(chǎng),已不再是傳統(tǒng)股票經(jīng)紀(jì)人每天看財(cái)報(bào),分析股指,買賣兩三支股票就能高枕無(wú)憂的年頭了。T+0的交易模式允許交易方在同一天買入和賣出,于是就產(chǎn)生了自動(dòng)交易機(jī),每秒鐘執(zhí)行上百萬(wàn)次的買賣交易,而這些交易的決策,完全是由機(jī)器智能實(shí)現(xiàn)的。因?yàn)榻灰坠P數(shù)的增多,每筆交易的利潤(rùn)并不需要很大,整體也能產(chǎn)生巨大的盈利。甚至有公司利用紐約證交所到太平洋對(duì)岸的結(jié)算中心2ms的信息傳輸延遲,賺取了大量收入,這些高頻交易,跟傳統(tǒng)的金融分析已經(jīng)間隔漸遠(yuǎn),大數(shù)據(jù)技術(shù)成為重中之重。當(dāng)美國(guó)一大批商學(xué)院在向信息界尋求力量,而中國(guó)的商學(xué)院尚處于學(xué)習(xí)美國(guó)以往模式,學(xué)生只懂現(xiàn)象不懂技術(shù),此番培養(yǎng)的金融人才,必將很難適應(yīng)市場(chǎng),這是熊老師提出對(duì)國(guó)內(nèi)“金融熱”的大大擔(dān)憂。而計(jì)算機(jī)行業(yè),若有數(shù)據(jù)挖掘背景,將會(huì)有巨大的發(fā)展空間,不僅僅在金融界。 首先,要會(huì)看這個(gè)導(dǎo)師以前的學(xué)生畢業(yè)后的發(fā)展情況,這些是訓(xùn)練集(Training data)。而后去老師主頁(yè)看看他/她文章的署名,全是第一作者的,就不要報(bào)了,否則會(huì)很慘。第三要懂得觸類旁通,多去問(wèn)問(wèn)現(xiàn)在在他門下的師兄師姐,了解實(shí)際情況。 所謂人才過(guò)剩,說(shuō)的是一致化的人才一大把。熊老師用自己學(xué)生為什么被名校錄取做教職的例子,告訴我們,可以經(jīng)常用“異常診斷”(Outliers detection)來(lái)評(píng)估自己,在哪些維度上,自己是獨(dú)特又有價(jià)值的。注意一個(gè)定義,Outlier和Noise不一樣,Outlier是真實(shí)存在的,但與一般實(shí)例有不一樣的表現(xiàn),而Noise是錯(cuò)誤的數(shù)據(jù),可能是采集、存儲(chǔ)、運(yùn)輸中發(fā)生的問(wèn)題,做數(shù)據(jù)清理的時(shí)候需要除去。 講到數(shù)據(jù)清理,它主要包括兩個(gè)方面,一是Feature Selection,這是機(jī)器學(xué)習(xí)經(jīng)常要做的問(wèn)題,除去無(wú)關(guān)或者影響甚微的性質(zhì)Feature,不僅提高了算法的準(zhǔn)確率,還減少了計(jì)算復(fù)雜度。二是Instance selection,這就是要消除那些跟我們研究目的無(wú)關(guān)的例子,比如我們要研究所有男性患高血壓的概率問(wèn)題,就不應(yīng)混入女性的數(shù)據(jù)。 那些沒(méi)有做過(guò)大數(shù)據(jù)實(shí)踐的統(tǒng)計(jì)學(xué)家經(jīng)常鼓吹,他們通過(guò)采樣,只需千分之一的數(shù)據(jù),就能得出數(shù)據(jù)的模式(Pattern)。其實(shí),這在很多情況下都是扯淡,采樣有至少三個(gè)危險(xiǎn)區(qū)。第一,采樣可能導(dǎo)致異常消失,如果我們要做的就是異常診斷(Outliers detection),異常本來(lái)就稀少,如果用隨機(jī)采樣,絕對(duì)變白癡。第二,采樣會(huì)導(dǎo)致關(guān)聯(lián)減弱。第三,采樣可能會(huì)忽略小型聚類,舉個(gè)例子,要是社交網(wǎng)絡(luò)中的小聚類正好是VIP客戶群,這樣的忽略麻煩就大了。 將數(shù)據(jù)投射到另一個(gè)空間或者維度,是數(shù)據(jù)挖掘中很高級(jí)的一中方法。熊老師舉莊子“識(shí)人九征”作為例子:“遠(yuǎn)使之而觀其忠,近使之而觀其敬,煩使之而觀其能,卒然問(wèn)焉而觀其知,急與之期而觀其信,委之以財(cái)而觀其仁,告之以危而觀其節(jié),醉之以酒而觀其側(cè),雜之以處而觀其色?!保ā厩f子·雜篇·列御寇】)以上九種情況,都是把要考察的人放在一個(gè)特定的場(chǎng)景下,觀察其反應(yīng),此即Mapping Space. 數(shù)據(jù)挖掘跟機(jī)器學(xué)習(xí)不同,它是一個(gè)自底向上的技術(shù)。它關(guān)注數(shù)據(jù)的密度、維度、噪聲、分布以及數(shù)據(jù)點(diǎn)之間的相似性,它的終極目的就是在一個(gè)大表(行為實(shí)例,列為性質(zhì))中填補(bǔ)那些缺失的、錯(cuò)誤的數(shù)據(jù)。從數(shù)據(jù)的密度上,有稀疏性的算法可研究,如矩陣分解。在數(shù)據(jù)維度上,常常需要用到降維(dimension reduction)技術(shù),如SVD, PCA等等。對(duì)噪聲和Outlier的處理,與聚類算法息息相關(guān)。衡量數(shù)據(jù)點(diǎn)間的相似性,對(duì)應(yīng)的也就是研究?jī)牲c(diǎn)之間的距離,距離函數(shù)面對(duì)不同的數(shù)據(jù)類型又是不一樣的選擇,可有講究了。 譬如歐幾里德距離適合衡量低維的數(shù)據(jù),因?yàn)槔碚摽梢宰C明,高維下,任意兩點(diǎn)的歐式距離將十分相似!這時(shí)候角度是不會(huì)改變的,于是Cosine distance就有了好的表現(xiàn),但它的弱點(diǎn)是不能衡量長(zhǎng)度。有時(shí)候,統(tǒng)計(jì)相關(guān)性(correlation)也會(huì)作為距離的函數(shù),不過(guò)它只能衡量線性關(guān)系,你拿Y=X^2的數(shù)據(jù)給它,得出來(lái)X,Y的相關(guān)性居然是0,為什么?因?yàn)樗麄兪嵌蜗嚓P(guān)。 在做多Feature的數(shù)據(jù)挖掘任務(wù)時(shí),標(biāo)準(zhǔn)化(Normalization)是必不可少的工作。可以很容易想象,如果不做標(biāo)準(zhǔn)化,值域大的因素容易統(tǒng)治預(yù)測(cè)結(jié)果,尤其是在相同的權(quán)值影響下。 via:中科大·龍星計(jì)劃《數(shù)據(jù)挖掘》小記 ?作者:范深,電子科大,計(jì)算機(jī)科學(xué)與工程學(xué)院,碩士在讀未來(lái)的金融是大數(shù)據(jù)技術(shù)的天下
選導(dǎo)師也是一次數(shù)據(jù)挖掘課題
數(shù)據(jù)挖掘四大分支:分類、聚類、關(guān)聯(lián)、異常診斷
采樣是很危險(xiǎn)的
莊子“識(shí)人九征”
數(shù)據(jù)挖掘做科研的切入點(diǎn)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!