用數(shù)據(jù)預(yù)測未來:時(shí)間序列分析

4 評論 123052 瀏覽 89 收藏 17 分鐘

對于本文內(nèi)容,小編只知道作者介紹了一種用數(shù)據(jù)預(yù)測未來的方法——時(shí)間序列分析?!牛瑑?nèi)容灰?;页;页X,各位看官enjoy~

應(yīng)用背景:

通過分析序列進(jìn)行合理預(yù)測,做到提前掌握未來的發(fā)展趨勢,為業(yè)務(wù)決策提供依據(jù),這也是決策科學(xué)化的前提。

時(shí)間序列分析:

時(shí)間序列就是按時(shí)間順序排列的一組數(shù)據(jù)序列。

時(shí)間序列分析就是發(fā)現(xiàn)這組數(shù)據(jù)的變動規(guī)律并用于預(yù)測的統(tǒng)計(jì)技術(shù)。

分析工具:

SPSS(數(shù)據(jù)分析的重量級應(yīng)用,與SAS二選一)

實(shí)踐案例:通過歷史數(shù)據(jù)預(yù)測未來數(shù)據(jù),所涉及的都是最簡單的實(shí)踐,拋磚引玉,重在方法,不論多復(fù)雜的數(shù)據(jù),方法是一樣的。

如已知前幾年每月的銷售量,預(yù)測未來的銷售量。

一、時(shí)間序列分析簡介

時(shí)間序列分析有三個(gè)基本特點(diǎn)

  1. 假設(shè)事物發(fā)展趨勢會延伸到未來
  2. 預(yù)測所依據(jù)的數(shù)據(jù)具有不規(guī)則性
  3. 不考慮事物發(fā)展之間的因果關(guān)系

并不是所有的時(shí)間序列都一定包含四種因素,如以年為單位的詩句就可能不包含季節(jié)變動因素。

四種因素通常有兩種組合方式:

  1. 四種因素相互獨(dú)立,即時(shí)間序列是四種因素直接疊加而成的,可用加法模型表示:?Y=T+S+C+I
  2. 四種因素相互影響。即時(shí)間序列是四種因素相互綜合的結(jié)果,可用乘法模型表示:Y=T*S*C*I

其中,原始時(shí)間序列值和長期趨勢可用絕對數(shù)表示;季節(jié)變動、循環(huán)變動、不規(guī)則變動可用相對數(shù)(變動百分比)表示。

二、季節(jié)分解法

當(dāng)我們對一個(gè)時(shí)間序列進(jìn)行預(yù)測時(shí),應(yīng)該考慮將上述四種因素從時(shí)間序列中分解出來。

為什么要分解這四種因素?

  1. 分解之后,能夠克服其他因素的影響,僅僅考量一種因素對時(shí)間序列的影響。
  2. 分解之后,也可以分析他們之間的相互作用,以及他們對時(shí)間序列的綜合影響。
  3. 當(dāng)去掉這些因素后,就可以更好的進(jìn)行時(shí)間序列之間的比較,從而更加客觀的反映事物變化發(fā)展規(guī)律。
  4. 分解之后,序列可以用來建立回歸模型,從而提高預(yù)測精度。

所有的時(shí)間序列都要分解這四種因素嗎?

通常情況下,我們考慮進(jìn)行季節(jié)因素的分解,也就是將季節(jié)變動因素從原時(shí)間序列中去除,并生成由剩余三種因素構(gòu)成的序列來滿足后續(xù)分析需求。

為什么只進(jìn)行季節(jié)因素的分解?

  1. 時(shí)間序列中的長期趨勢反映了事物發(fā)展規(guī)律,是重點(diǎn)研究的對象;
  2. 循環(huán)變動由于周期長,可以看做是長期趨勢的反映;
  3. 不規(guī)則變動由于不容易測量,通常也不單獨(dú)分析。
  4. 季節(jié)變動有時(shí)會讓預(yù)測模型誤判其為不規(guī)則變動,從而降低模型的預(yù)測精度

綜上所述:當(dāng)一個(gè)時(shí)間序列具有季節(jié)變動特征時(shí),在預(yù)測值錢會先將季節(jié)因素進(jìn)行分解。

步驟:

  1. 定義日期標(biāo)示變量:即先將序列的時(shí)間定義好,才能分析其時(shí)間特征。
  2. 了解序列發(fā)展趨勢:即序列圖,確定乘性還是加性
  3. 進(jìn)行季節(jié)因素分解
  4. 建模
  5. 分析結(jié)果解讀
  6. 預(yù)測

1、定義日期標(biāo)示變量

時(shí)間序列的特點(diǎn)就是數(shù)據(jù)根據(jù)時(shí)間點(diǎn)的順序進(jìn)行排列,因此分析之前,SPSS需要知道序列的時(shí)間定義,然后才能進(jìn)行分析時(shí)間特征。

根據(jù)源數(shù)據(jù)的格式進(jìn)行選擇,并輸入第一個(gè)個(gè)案的具體數(shù)值。

此時(shí)會在源文件中生成三個(gè)新的變量。

2、了解序列發(fā)展趨勢

完成日期標(biāo)示變量的定義之后,需要先對時(shí)間序列的變化趨勢有所了解,便于選擇合適的模型。即通過序列圖,確定模型是乘性還是加性。

變量為”銷售數(shù)據(jù)“,時(shí)間軸標(biāo)簽為”DATE–“,也就是我們自定義的時(shí)間。

數(shù)據(jù)銷量序列圖

如何根據(jù)序列圖來判斷模型的乘性或加性?

  1. 如果隨著時(shí)間的推移,序列的季節(jié)波動變得越來越大,則建議使用乘法模型。
  2. 如果序列的季節(jié)波動能夠基本維持恒定,則建議使用加法模型。

本例很明顯:隨著時(shí)間變化,銷售數(shù)據(jù)的季節(jié)波動越來越大,那么使用乘法模型會更精確。

3、進(jìn)行季節(jié)因素分解

變量為”銷售數(shù)據(jù)“,且根據(jù)序列圖我們知道時(shí)間序列模型為乘性。

提示您會新生成四個(gè)變量

  1. ERR(誤差序列):從時(shí)間序列中移除季節(jié)因素、長期趨勢、和循環(huán)變動之后留下的序列,也就是原始序列中的不規(guī)則變動構(gòu)成的序列。
  2. SAS(季節(jié)因素校正后序列):是移除原始序列中的季節(jié)因素后的校正序列。
  3. SAF(季節(jié)因子):是從序列中分解出的季節(jié)因素。其中的變量值根據(jù)季節(jié)周期的變動進(jìn)行重復(fù),如本例中季節(jié)周期為12個(gè)月,所以這些季節(jié)因子沒12個(gè)月重復(fù)一次。
  4. STC(長期趨勢和循環(huán)變動趨勢):這是原始序列中長期趨勢和循環(huán)變動構(gòu)成的序列。

如圖,周期為12個(gè)月,季節(jié)因子12個(gè)月循環(huán)一次。

完成季節(jié)因素分解后的序列和原始序列之間有什么差異?

通過回執(zhí)序列圖的方法把原始序列和除去季節(jié)因子的三個(gè)序列(誤差序列、季節(jié)因素校正后序列、長期無視和循環(huán)變動序列)進(jìn)行比較。

要做四個(gè)序列圖,會有四個(gè)變量:

  1. 原始序列:使用變量”銷售數(shù)據(jù)“;
  2. 誤差序列:使用變量”ERR“;
  3. 季節(jié)因素校場后序列:使用變量”SAS“
  4. 長期趨勢和循環(huán)變動序列:使用變量”STC“

  • 藍(lán)色線:原始序列
  • 紫色線:長期趨勢和循環(huán)變動序列
  • 淺棕色:季節(jié)因素校正后序列
  • 綠色線:誤差序列(不規(guī)則變動)

因?yàn)檎`差序列數(shù)值非常小,所以長期趨勢和循環(huán)變動序列(長期趨勢+循環(huán)變動)與季節(jié)因素校正后序列(長期趨勢+循環(huán)變動+不規(guī)則變動,即誤差)能夠基本重合。

在單獨(dú)做”季節(jié)因子SAF“的序列圖:

因?yàn)槭亲觥奔竟?jié)因子“的序列圖,所以只有一個(gè)變量”季節(jié)因子SAF“

我們看出:季節(jié)因素的周期是12個(gè)月,先下降,然后上升到第一個(gè)頂點(diǎn),再有略微的下降后,出現(xiàn)明顯的上升趨勢,到第七個(gè)月時(shí)達(dá)到峰值,然后一路下跌,直到最后一個(gè)月份有所回升,之后進(jìn)入第二個(gè)循環(huán)周期。

通過對原始序列的季節(jié)分解,我們更好的掌握了原始序列所包含的時(shí)間特征,從而選用適當(dāng)?shù)哪P瓦M(jìn)行預(yù)測。

三、專家建模法

時(shí)間序列的預(yù)測步驟有四步:

  1. 繪制時(shí)間序列圖觀察趨勢
  2. 分析序列平穩(wěn)性并進(jìn)行平穩(wěn)化
  3. 時(shí)間序列建模分析
  4. 模型評估與預(yù)測

平穩(wěn)性主要是指時(shí)間序列的所有統(tǒng)計(jì)性質(zhì)都不會隨著時(shí)間的推移而發(fā)生變化。

對于一個(gè)平穩(wěn)的時(shí)間序列,具備以下特征:

  1. 均數(shù)和方差不隨時(shí)間變化
  2. 自相關(guān)系數(shù)只與時(shí)間間隔有關(guān),與所處的時(shí)間無關(guān)

自相關(guān)系數(shù)是研究序列中不同時(shí)期的相關(guān)系數(shù),也就是對時(shí)間序列計(jì)算其當(dāng)前和不同滯后期的一系列相關(guān)系數(shù)。

平穩(wěn)化的方法——差分。

差分就是指序列中相鄰的兩期數(shù)據(jù)之差。

  • 一次差分=Yt-Yt-1
  • 二次差分=(Yt-Yt-1)-(Yt-1-Yt-2)

具體的平穩(wěn)化操作過程會有專家建模法自動處理,我們只需要哼根據(jù)模型結(jié)果獨(dú)處序列經(jīng)過了幾階差分即可。

時(shí)間序列分析操作:

要分析所有變量,所以選擇”銷售數(shù)據(jù)“。

【專家建模器】–【條件】,勾選”專家建模器考慮季節(jié)性模型“。

勾選”預(yù)測值“,目的是生成預(yù)測值,并保存模型。

時(shí)間序列分析結(jié)果解讀

該表顯示了經(jīng)過分析得到的最優(yōu)時(shí)間序列模型及其參數(shù),最優(yōu)時(shí)間U型獵魔性為ARIMA(0,1,1)(0,1,1)

求和自回歸移動平均模型ARIMA(p,d,q)(P,D,Q)

  • p:出去季節(jié)性變化之后的序列所滯后的p期,通常為0或1,大于1的情況很少;
  • d:除去季節(jié)性變化之后的序列進(jìn)行了d階差分,通常取值為0,1或2;
  • q:除去季節(jié)性變化之后的序列進(jìn)行了q次移動平均,通常取值0或1,很少會超過2;

P,D,Q分別表示包含季節(jié)性變化的序列所做的事情。

因此本例可解讀為:對除去季節(jié)性變化的序列和包含季節(jié)性變化的序列分別進(jìn)行了一階差分和一次移動平均,綜合兩個(gè)模型而建立出來的時(shí)間序列模型。

該表主要通過R方或平穩(wěn)R方來評估模型擬合度,以及在多個(gè)模型時(shí),通過比較統(tǒng)計(jì)量找到最優(yōu)模型。

由于原始變量具有季節(jié)性變動因素,所以平穩(wěn)的R方更具有參考意義,等于32.1%,擬合效果一般。

該表提供了更多的統(tǒng)計(jì)量可以用來評估時(shí)間序列模型的擬合效果。

雖然平穩(wěn)R方僅僅是32.1%,但是”楊-博克斯Q(18)“統(tǒng)計(jì)量的顯著性P=0.706,大于0.05(此處P>0.05是期望得到的結(jié)果),所以接受原假設(shè),認(rèn)為這個(gè)序列的殘差符合隨機(jī)分布,同時(shí)沒有離群值出現(xiàn),也都反映出數(shù)據(jù)的擬合效果還可以接受。

時(shí)間序列應(yīng)用預(yù)測:

未來一年是到2016年12月,手動輸入即可。

這是未來一年的銷售趨勢。

如果想從全局來觀察預(yù)測趨勢,可以在把這一年的趨勢和以前的數(shù)據(jù)連接起來

此時(shí)的變量應(yīng)該是”原始的銷售數(shù)量“和”2016年的預(yù)測銷售數(shù)量“。

結(jié)果如下:

也可以在表中查看具體的數(shù)值:

 

作者:膝蓋哥,是一枚“跪著提需求”的產(chǎn)品經(jīng)理。常說“不用不用,真的不用了,我跪著就好!”

本文由 @膝蓋哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 請問如果數(shù)據(jù)是年月日這個(gè)顆粒度的,該怎么定義時(shí)間呢,默認(rèn)的定義時(shí)間格式?jīng)]有這樣的

    來自北京 回復(fù)
  2. 很棒

    回復(fù)
  3. 很清晰呀,趕緊用實(shí)際的數(shù)據(jù)來跑一跑

    來自北京 回復(fù)
  4. 可以化繁為簡為何多碼字 ??

    來自廣東 回復(fù)