最近覺得自己美股轉換標的的時機都不是很好, 抄底常抄在半山腰, 就想說來研究一下預測趨勢好了, 雖然知道要預測市場趨勢基本上不可能, 變因變數太多, 不過就當作小參考也好, 至少能大概知道從過去來看目前大致的趨勢是向上或向下也不錯~。
決定好要做之後就先隨便google一下, 剛好看到FB有發布一個簡易使用的時序預測模型, 基本公式如下:
y(t) = g(t) + s(t) + h(t) + e(t)
s(t) 代表週期的變化,日週期,週週期,年週期等
h(t)代表假日的變化,假日週期可能會影響到持有股價的意願。
e(t)包含了模型沒有涵蓋的錯誤或者是變化
從公式看可以知道主要是以趨勢跟週期的變化去擬合未來的預測結果, 詳細介紹可以參考這篇。 基本上單針對行情預測這件事來說, 最重要的就是趨勢的預測, 年週期的部分則是對淡旺季有所幫助, 節假日的部分或許也或多或少有幫助 (e.g. 感恩節, 黑色星期五等?)。
而這篇介紹有含簡單跑模型的sample code。
再來關於股價資料這塊, 我之前做的Norn-StockScreener有設定好Github Action每天自動抓美股6000多檔的近一年OHLCV日報價, 這樣就可以直接開工了, 第一版做好的Github如下:
https://github.com/zmcx16/stock-forecast
再來跑跑看效果如何, 因為FB Prophet基本上是單變數模型, 所以先把近一年的資料拆成9:1, 前10.8個月當訓練資料, 後1.2個月當測試資料, 再來評估模型的效果, 先來跑AT&T測試看看:
上面黑色的點是真實資料的點價位, 藍色的線則是模型訓練完後模擬出的結果, 淺藍色的區塊則是預測線的上限及下限, 可以當成模型認為可能的最大誤差, 至於Y軸的值為什麼跟股價不一樣, 是因為有先對資料做對數轉換, 把資料變得更平穩並且預測的趨勢能更趨於線性, 想更瞭解可以參考下面這兩篇:
https://pythondata.com/forecasting-time-series-data-with-prophet-part-1/
https://people.duke.edu/~rnau/411log.htm
第二張圖則是Prophet其他component的圖, 上面那張是趨勢預測圖, 基本上前大半部分會跟這一年的股價差不多擬合, 而最後面那一段有淡藍色區塊的則是實際預測的部分。 而下面那張圖是用每週循環的預測, 基本上意義不大就不看了~。
MSE: 1.2798056068411054 MAE: 1.0764610288441487
單純用平均誤差看, 跟真實股價平均差一塊錢左右, 以25塊的股價算差不多是4%, 1.8個月的預測資料跟真實資料落差4%價格, 這樣的結果是好或不好, 其實我也不太能把握, 畢竟AT&T的beta本來就小, 如果是波動大的個股, 只落差4%的話我是會覺得很厲害...。
跑完上面的模型, 在來重新思考一下, 上面的模型只是單純用近10.2個月的收盤價, 去預測後面1.8個月的收盤價, 就只是個單變數的模型, 可是股票市場的變數何其多, 單用收盤價就去預測未來資訊太少了, 能準確預測反而才奇怪。
關於這點, Prophet本身是可以接受添加附加的回歸量來訓練模型的, 只不過必須在訓練資料跟預測資料上都有想加的回歸量才行, 可是未來的資料不可能會有, 只能用某些方法才能生成出來, 關於這問題我是直接參考這篇:
簡單作法就是, 先把你想加的回歸量都做一遍預測, 然後拿這些預測的回歸量當作你真正要預測的模型的附加回歸量, 這樣就可以只依靠訓練資料就能做多變數預測模型了, 在這邊我額外加入了Open High Low Volume作為附加的回歸量, 並來預測未來收盤價的結果:
恩....看第一張圖跟第三張圖, 可以發現預測線跟上下限極度貼合實際的股價, 其實這結果不太意外, 因為附加的回歸量有開盤價跟最高價以及最低價, 而這三種資料跟收盤價本來就是極度相近的, 所以畫出來的會長這樣我倒是不太意外...。
再來看最後一段預測的結果, 趨勢來說還是一樣的, 只是上下限的部分也極度貼合, 這通常就兩種情況, 一是真的精準度很高, 預測神準, 不過想也知道不太可能; 而第二種情況是最有可能的, 就是overfitting過度學習了, 來看看最終測試資料的平均誤差跟均方誤差結果:
MSE: 1.1426736398003121 MAE: 0.9865404828745983
結果還真的比只用收盤價的模型好了近10%, 我是覺得只是運氣好啦... 關於這個問題就先放一邊, 因為上面的預測模型看起來就太overfitting了, 這次附加回歸量我去掉Open High Low, 只用Volume試試看, 因為Volume本身跟價格無關, 應該不會在有上面那種極度擬合的預測圖, 下面是跑完的結果:
MSE: 1.3153719245816298 MAE: 1.0991889378931168
看起來跟只用收盤價預測差不多, 不過均方差跟平均差反而更大了, 其實要說不意外也是不意外, 畢竟交易量大增有可能大漲也有可能大跌, 至於到底往上走還是往下走都是概率的問題, 猜錯方向就是大錯...。
最後再來跑另一檔個股吧, 這次挑AAPL好了, 挑市值最大的公司應該很有參考價值, 首先只用收盤價訓練模型:
預測結果整個超差, 畢竟預測值是往下跌的, 而AAPL在10月低點是開始往上漲, 所以模型猜錯方向導致結果超差其實不意外。
再來看看用Open High Low Volume作為模型附加回歸量的結果:
嚇死人, 是怎麼得出這種鬼東西的..., 看起來是把週期性的東西考慮進去了, 可是為什麼下限的波動這麼大, 完全搞不明白, 理所當然的結果當然更差了...。
這次分享就到這邊, 之後有空打算再研究其他的時序預測模型, 加減玩玩看~~~。
沒有留言:
張貼留言