2021年10月24日 星期日

ReclassifyAnimeCG - 來用深度學習整理CG圖庫吧

會想寫這個工具的主要原因是, 我有追蹤一些繪師並且用下載器去追蹤下載那些繪師的作品, 不過基本上繪師畫的圖通常就是幾天放個一張, 或是一次推出的CG圖庫都是複合的動漫畫主題, 然後下載器下載又不可能自動幫我分類這些圖片, 導致這些圖片就越來越雜亂, 每個資料夾都混雜複數個主題&角色, 每個資料夾的名稱又沒有特定的主題性, 讓我自己事後很難找圖不說, 連看都懶得看了...。 後來就想到現在深度學習分類圖片已經很強了, 那我乾脆來寫個工具輔助我整理圖庫吧!!

做好的成果如下:

使用的方法大致如下:

1. 設置config.yaml
設定想整理的圖庫位置(predict_data_path), 以及先手動整理好一小部分的資料當訓練資料(train_data_path), 還有預定之後模型分類完存放圖庫的位置(output_data_path), 還有設定想訓練/使用的深度學習模型。

2. 執行preprocess.py
preprocess.py會生成 train.txt, test.txt, index.txt 到 label_path 位置。train.txt儲存訓練資料的每張圖片的位置, 以及對應的資料夾名稱(類別); test.txt則是根據config.yaml裡的train_ratio來決定要從training_data裡拿多少資料做為testing data, 如果今天是想測試模型好壞或調參數會設定到, 如果是單純想使用來整理圖片不調參數, 就直接設定成1.0; index.txt則是記錄每個類別index對應的資料夾名稱。

3. 執行train.py
train.py會開始訓練模型, 並把訓練好的模型存在train_model_path位置

4. 執行predict.py
如果config.yaml設定use_test_txt = true, predict.py會使用之前preprocess.py生成的testing data來做分類預測, 並計算這次分類的準確率, 可以根據分類好壞來調整模型跟參數改善模型; 如果use_test_txt = false, predict.py會遍歷predict_data_path位置的所有圖檔, 並針對這些圖檔做分類預測, 以及根據預測結果儲存到output_data_path。

5. 如果是調整或訓練模型到步驟4就結束了, 而如果是要整體圖庫的話, 手動確認分類結果, 把分類錯誤的部分砍掉, 之後把剩餘正確(部分)的分類結果複製到training_data內。

6. 跳回步驟2, 反覆做到個人滿意分類結果為止。

2021年10月16日 星期六

[網站開發] 新增Industry Insiders頁面 - 美股搜尋網站 Norn-StockScreener

目前自己的美股持股中, 有不少景氣循環股 (鋼鐵, 石油, 動力煤, 航運等), 當初會投資這些標的主要是觀察產業-市場指標:

當發現原物料或運價指數跟相關產業的績效乖離過大時, 我就會適當投資一些相關產業的個股, 之後也打算等這些原物料現貨價格 / 運價指數下跌到一定程度後再賣出持股, 不過以景氣循環股來說, 通常行情的最高點也是該相關市場指標的最高點, 單看市場指標下跌在賣出的話, 可能持有的美股標的已經跌一大半了, 對整體的投資績效也會大打折扣, 所以就想說是不是可以多參考幾個市場指標以外的指標, 第一個想到可以做的就是內幕投資人的投資紀錄了。

如果一家公司的CEO / CFO 以及高階主管持續買入自家公司的股票, 通知有很大機率是對自己公司 / 產業的未來很有信心, 才會想用自己的錢買自家公司的股票; 對投資人而言也比較能放心投資這間公司, 畢竟這代表經營這間公司的人跟自己是坐在同一條船上, 要沉也是一起沉XD 

美股上市公司的內幕投資人交易依法必須要登錄在SEC網站上, 基本上像Yahoo財經, Finviz這些大型的財經網站都可以看到每間公司的內幕投資人交易, 這些資料也都是從SEC網站來的, 如果今天我們只是想關注自己想買 / 想賣的公司, 只要追蹤這些公司的標的就好。

但是, 不是每間公司都有頻繁的內幕人交易, 如果剛好我們想買的 / 賣的公司都沒有這些資料, 那我們能參考的, 就只有相同產業的其他公司, 如果這些公司數量還不少, 那追蹤起來就會十分累人, 如果有個統計每個產業的所有公司的內幕投資人交易並整理成一張表的話, 就可以輕鬆許多, 所以就決定來做一個產業 - 內幕投資人頁面在Norn-StockScreener網站上了。

做完的成果如下:




這個表格左半部是每個產業的最近一日的整體漲跌幅, 以及週、月、季、半年、近一年、今年迄今的整體漲跌幅績效; 而右半部則是該產業的所有公司的內幕交易資料統整起來, 最後分別計算週、月、季、半年、近一年、今年迄今佔近一整年內幕交易量市值的比例。 

舉例來說, 上圖第一筆月內幕交易最大值的產業是多元化房地產信託投資, 週買超量(買進-賣出) / (近一年買進+賣出+選擇權執行) 為7.116%, 月買超量為26.934%, 而近一年買超量則只佔26%, 這代表這個產業最近一個月有某間或數間公司被內幕交易人瘋狂買進, 如果想知道交易細節, 可以在點進去最右邊Detail連結, 可以看到那個產業近一年所有公司的每一筆內幕投資交易:





再來看最近因為鐵礦石現貨大跌50%導致整體大跌的鋼鐵產業:



圖右半邊全部都是紅色的賣超, 這個基本上很正常, 因為大多數的公司員工不太會拿自己的錢去買股票, 可是會拿到公司的股票選擇權, 所以對大多數公司來說賣出>>買進是合理的, 要區分到底是選擇權到期後賣出, 還是看壞公司 / 產業才賣出, 只能一家家公司分別看才知道...。 總之先來看一下鋼鐵產業的內幕投資交易:






剛好就有我3天前撿便宜的美國鋼鐵(X), 來看一下Finviz網站的美國鋼鐵資料:





剛好5/10跟8/18這兩波大賣都是股價相對高點, 5/10的賣出是5/12 SEC才公告, 可以看出那根大紅棒應該很大可能是SEC公告才直接摔下去的, 而8/18則是後續又緩跌了幾天, 才重重摔下去, 我自己目前是打算熱軋鋼捲價格大跌或有上述內幕投資人大賣出再出清X持股。


看完鋼鐵產業的例子, 再來看看航運好了:



從整體產業頁面看不太出什麼關係, 只看出今年迄今的賣超量大於近一年的賣出量, 這代表大部分的賣出都是在今年發生的, 去年應該有不少內幕投資人積極買入自家公司的股票。




至於內幕投資的交易列表, MATX就超過了一半的交易, 看一下Finviz的資料:






這是一家高階主管不斷狂賣股票的公司, 基本上對於產業來說沒有參考價值, 而以公司來說我也完全不會想持有這間公司, 目前的網頁也沒辦法自動把這類的公司濾除掉, 殘念...。

基本上這種高階主管不想持有股票的公司非常多, 這不代表說這間公司不好, 畢竟每個人想把錢放在哪裡都是他個人的自由; 反過來說內幕投資人不斷買進的公司也不能代表公司或產業前景一定好, 有可能是公司高層自己看錯趨勢, 或是不管盈虧就是對自家公司情有獨鍾, 或是戰略意義上的買進 (e.g. 母公司增加子公司持有比例, 公司經營權戰爭等等), 不能僅僅單看這個指標, 還是要分析基本面, 產業前景, 總體經濟等全方面的評估在投資會比較適當。

最後題外話, 對我來說, 我喜歡跟投資人坐在同一條船上的經營層, 這樣我也才能安心把錢放在這間公司上面。 之前疫情時有注意到ZM的內幕投資人交易, 公司高層幾乎每個月都在賣股票, 拿到選擇權後也是一直賣, 所以我完全不會想投資ZM這間公司, 不過認真說ZOOM軟體真的做得比微軟的Teams好用太多, 只是我還是不會因為這樣就投資這間公司就是了...。

這次分享就到這邊, 有空再來想想還有什麼好玩的東西可以做~~。

2021年10月1日 星期五

MahoMangaDownloaderVer15.1更新

這次更新修復內容如下:

1. 古風漫畫新增網域名(https://www.gufengmh8.com/  -> https://www.gufengmh9.com/)

2. 古風漫畫網站TLS安全性更新導致下載器不能下載問題

3. welovemanga新增DDOS防護導致不能下載問題

4. welovemanga隨機跳404頁面防爬蟲問題


welovemanga真的很猛, 上個禮拜加DDOS防護, 這個禮拜再來個隨機404頁面防爬蟲, 真心覺得佩服...。


最後的慣例推坑時間, 忽然很懷念小時候很愛看的動畫: "天地無用", 而且TV1的OP又超經典, 長大後再聽更是特別不一樣, 剛好放上來讓大家回味一下XD




 

2021年9月19日 星期日

MahoMangaDownloaderVer15.0更新

這周又有不少使用者回報問題, 感覺快陷入無窮改版迴圈..., 如果繼續這種頻率也只能拉長改版時間了...。

這次更新修復內容如下:

1. 無限動漫更改瀏覽頁面網域 (https://comic.aya.click/online/best_***->https://comicabc.com/online/new-***)

基本上就是老慣例, 無限動漫常常某段時間就會換瀏覽頁面的網域名或API路徑prefix, 這個只能遇到一次修一次, 另外因為這次換的是網域名, 所以基本上已經加入下載清單的task都廢了, 追蹤清單則是不受影響, 只能請使用者更新完後有還沒載完的就請自行重新加入清單了。


2. 拷貝漫畫抓不到單行本清單

拷貝漫畫的頁面蠻玄的, 有預設清單, 然後清單的tab有話, 番外, 卷等等...。  有些漫畫他會把單行本放在預設清單的卷tab裡, 可是另一些漫畫則是預設清單的卷沒東西, 而是另外開一個新section專放單行本, 意義不明..., 總之只能額外parse預設清單以外的section了...。


3. welovemanga改版導致不能下載問題

這個網站最近在瘋狂改版防爬蟲, 我光是這禮拜還沒release就修了三次, 有parser類的也有重導向類的, 幾乎是每一~兩天就改一次, 感覺應該在跟某個爬蟲大軍對抗吧...。

基本上如果網站方積極想防爬蟲, 爬蟲程式能做到的也是有極限的, 如果繼續搞下去, 我大概就是延長改版時間(maybe兩周~一個月), 或是修到使用者也不願意回報就不管了, 畢竟我個人的時間也是有限的, 不可能把所有時間都拿去維護下載器...。


至於慣例的推坑時間, 之前有介紹"一個人的○○小日子" (巴哈動畫瘋)

最近看到最喜歡的角色亞琉, 動畫第五話插入曲有人做MAD放到youtube上, 放上來傳教一下~~。













2021年9月11日 星期六

MahoMangaDownloaderVer14.9更新

這週又收到不少使用者回報問題, 這也是維護下載器可怕的地方, 目前下載器支援了近15個網站, 只要有一個網站改版就得更新一次, 最慘就是每幾天就換一個網站在改版, 這樣就變成下載器每個禮拜都得修parser跟上更新, 時間就這樣漸漸沒有了(就跟最近幾周一樣...), 如果各個網站的改版步調繼續這麼頻繁的話, 之後會把最小更新頻率拉到兩個禮拜以上, 畢竟還有一堆東西要做...。


發牢騷結束~回歸正題以下是這次的改版內容:

1. 修復無限動漫(comicbus)改版後造成下載器parser漫畫名稱亂碼問題

2. 改善無限動漫低機率下載到重覆頁面問題

3. 支援(修復)紳士漫畫(wnacg) tag網址功能

4. 新增支援yande.re(https://yande.re/)圖庫網站 (preview, 只支援tag url)


關於無限動漫的部分, 第一點主要是無限動漫的網頁編碼原本一直都是用big5, 終於在最近改成主流的utf-8了, 基本上換一下下載器的string encoding page就好; 而第二點是測試時發現的問題, 加了個hash table改善瀏覽器套件沒有即時換頁的問題。 

wnacg的部分是上個月wnacg把網頁的搜尋api整個改版了, 所以上個月下載器也針對新版的搜尋api做修復更新, 不過wnacg也有tag導覽功能, tag的API跟以前的搜尋是一樣的API, 只差在sname跟tag的keyword差異, 所以變成舊版的下載器不能用搜尋功能, 可是tag功能一樣繼續可以用; 而新版的下載器可以用搜尋功能, 但是輸入tag url就會出錯不能使用。

因為下載器當時就只有做支援搜尋功能, tag功能剛好可以用只是順便而已, 不過既然有人在用那決定還是修一下了, 另外因為我不想單為了wnacg改UI, 所以就決定follow上一版, tag功能只支援url模式, 搜尋功能才會同時支援keyword以及url模式。

至於最後的新增支援yande.re圖庫網站的部分, 主要是我正在做的side project需要用到大量的圖檔, 想說做都做了, 反正也不一定只有我在用, 就乾脆也一起放上來了。 只不過因為這網站目前禁止註冊, 我自己也沒有帳號, 所以看不到18X的圖, 不過因為網站只是把18X的圖用css藏起來, 所以下載器還是載得到, 等於是盲眼下載就是~。

目前這網站只支援新增tag url, 不支援搜尋也不支援追蹤, 因為我沒有帳號, 到時候出問題也不一定有辦法完全解決, 所以就當preview版功能用, 未來有閒要不要加其他功能(e.g. Artists)就在說, 畢竟時間根本不夠用...。


至於慣例的推坑時間, 剛好今年夏番快結束了, 就來貼幾部我有在看的夏番吧~~

女朋友 and 女朋友

巴哈動畫瘋: https://ani.gamer.com.tw/animeVideo.php?sn=23381

作品簡介

  主人翁・直也 為一名高中一年級生。在向一直很喜歡的 咲 告白以後,順利讓她成為了女朋友。目前正處於幸福的頂端。但是,忽然有一名美少女・渚 向 直也 搭話並和她走一趟。突然的她就對 直也 發動強烈的猛勢告白,希望兩人能夠交往。在受到 渚 的好人性格而讓心中產中動搖的 直也,做出了某個決定…!! 從令人意外的選擇開始,新基準的愛情喜劇!!


ヒロユキ老師的作品就是讚!!!  幾乎每一部作品都有被動畫化真的是超神!! (印象中只有天才的超級戀愛是作者自己停更, 其他有持續連載的都有被動畫化), 這一部更是超精彩, 我看巴哈動畫瘋的動畫都是習慣看第一遍不開彈幕, 第二遍才開彈幕; 這部是我少數破戒的存在XD  觀看前大家都會先建議借放大腦, 等看完在領回, 不帶大腦看這部是最佳選擇XD


白沙的 Aquatope

巴哈動畫瘋: https://ani.gamer.com.tw/animeVideo.php?sn=23346

作品簡介

  在水族館工作的 18 歲女高中生・海咲野くくる ,與失去了東京居住場所並且正在避風頭的原偶像・宮沢風花 互相相遇。くくる 與 風花 兩人內心懷著各自的想法,在水族館度過了每一天。但是,那最重要的地方正面臨著閉館的危機。少女們的夢想與現實、孤獨與夥伴、羈絆與衝突──。嶄新閃爍的全新一頁,即將在這個夏天掀開序幕。



水族館題材的動畫, 動畫品質超高, TV動畫卻是劇場版動畫的水準, 動畫風格算是平平淡淡的輕鬆治癒向+小感動, 讓人有種青春的感覺~。


小林家的龍女僕第二季


京阿尼縱火事件後終於出第二季了, 第一季的監督武本康弘已經走了(R.I.P.), 不過第二季的風格完美的繼承了第一季的味道, 推薦給有看第一季但還沒看第二季的人~。 另外漫畫原作也很好看, 最近連載剛好到高潮, 也推薦追原作!!


賈希大人不氣餒!





賈希大人超可愛!!!  作品名稱+OP就是完整的介紹了, 大推XD


2021年9月5日 星期日

[網站開發] 新增Investment Gurus頁面 - 美股搜尋網站 Norn-StockScreener

Norn-StockScreener目前已經做了數個幫助尋找投資標的的功能, 有一般的基本面技術面條件選股, 還有Google Trend選股, 以及產業 - 市場指標關係頁面, 這次則是新增了投資大師選股, 想說當沒有想法的時候, 跟著投資大師的持股走也是不錯的選擇, 還可以幫助自己找投資標的的靈感~。 而要看各個投資大師的持股以及交易動態, 我非常推薦dataroma網站:


這網站主要提供各個投資大師或有名的基金的持股標的以及交易動態, 還有整合各個投資大師的投資組合頁面(如下圖):



點進去連結可以看到該投資大師的詳細動態, 像下圖就是巴菲特的波克夏·海瑟威的持股標的, 而且除了持股標的, 還可以看買進, 賣出等歷史紀錄:



另外也可以看個股的大師持有市值比率:



 
以參考投資大師的投資目的來說, 這網站功能已經十分完整了, 照理說我也沒必要多做一個投資大師的頁面, 只是以我個人來說, 還是有些地方沒有滿足我的需求:

1. 希望至少可以看到每個個股的一些基本面資訊(e.g. P/B, P/E)
2. dataroma網站的投資大師大概有7X位, 不過有些大師我查了一下, 最近的績效真的不怎麼樣..., 感覺這些大師清單是很早期建立的, 所以也沒有最近很夯的女股神木頭姊。

基於上述兩點, 就決定在Norn-StockScreener也開一個投資大師頁面, 裡面的投資大師主要就挑我比較認識的, 並提供一些基本面資料, 這樣我也可以直接看一張表就做提前過濾, 不用一個一個去查個股資料了~。 

做好的網站如下, 下圖是以簡單投票排序, 可以發現TWTR, TDOC, PATH, VCYT最多投資大師持有, TWTR就是大名鼎鼎的Twitter, 至於其他三檔我就不太熟了~。




另外用市值來排序的話, 幾乎都是巴菲特的持股, 只能說不意外..., 其中最大持股依然還是Apple公司, 第二名則是美國銀行, 都是市值超大的公司。




而近幾年投資績效超強的木頭姊的ARK系列, 最強的ARKW的第一持股是Tesla不意外, 之後還有推特, Square, Coinbase等科技股, 我幾乎沒有一檔敢買的QQ




這次的新頁面大概就先做到這, 之後應該會不定期新增其他的投資大師~。

MahoMangaDownloaderVer14.8更新

前幾天收到幾位使用者回報, copymanga沒辦法下載了, 看了一下發現是網站改了網頁的呈現機制, 原本是把所有圖片的html 元件render出來, 在用lazyloading在觀看時才載入圖片, 現在改成圖片的html元件也不render了, 在使用者看對應頁面時才把html元件render出來, 導致下載器沒辦法從一開始的html抓到所有圖片的html元件以及圖片位址, 會這樣改感覺就是防爬蟲阿...。 

目前姑且是修好了, 不過穩定性應該會比之前差了些, 畢竟沒辦法一次拿到完整的html了, 這塊就先將就, 如果有回報嚴重不能下載的問題在考慮enhance了~。

在來是這次慣例要推薦的漫畫, 忽然想到學生時代很喜歡一部漫畫: "夢使者", 故事介紹如下:


故事講述了一群使用夢的力量來解決事情的專家——夢使。在日常生活中,會突然發生很多不可思議的事,在這些事件的背後,一定會浮現出“夢”的陰影。在這個世界裡,“夢”中強烈的信念有時也會穿過時空反映到現實之中。如果是噩夢的話,便會給現實世界造成災難。主人公三島塔子和燐子作為“夢使”,要鎮壓住“惡夢”,找出“夢”的主人,讓“夢”回歸到原來的地方。


作者植芝理一的漫畫內容都蠻有深度的, 這部作品劇情還蠻發人省思的, 尤其是結局, 當時給我蠻大的震撼, 推薦有興趣的人可以追追看~。

P.S. 會回想起這部作品還有一個理由, 這部漫畫基本上沒有男主角, 只有一位準男主角, 而且是蘿莉控, 其中這頁還是我看過印象最深刻的蘿莉控發言, 根本超強XD


2021年8月28日 星期六

MahoMangaDownloaderVer14.7更新

這次更新主要是修復cocomanhua換網域名 -> cocomanga, 還有因為網站改版導致parser失靈問題~。

慣例的推坑時間, 上次推薦了"三顆星彩色冒險", 這次推薦的一樣是同作者的作品: "一個人OO的小日子", 巴哈動畫瘋也有上架:




巴哈動畫瘋:
https://ani.gamer.com.tw/animeVideo.php?sn=12081

介紹: 女主角因為約定必須在畢業前跟全班同學成為朋友的故事, 治癒系動畫, 推薦先把大腦移除後在觀看XD






2021年8月21日 星期六

[網站開發] 新增Google Trend Stocks頁面 - 美股搜尋網站 Norn-StockScreener (8/22 updated)

在尋找投資標的時, 可以用基本面搜尋 (P/E, P/B, ROA, ROE, Dividend %); 也可以用技術面搜尋 (SMA, RSI, Performance)等等, 會用基本面搜尋的人通常是想找尋中長期投資標的, 而用技術面搜尋則通常是想做短中線交易 (短線 or 波段交易); 不過不管是基本面搜尋, 還是技術面搜尋, 基本上上述這些因子都是落後指標, 已經是反應在股價上的資訊, 這些因子即便跟股價有高關聯性, 也已經是反應後的結果了, 並不能因此表示未來。  最多只能表示目前這些因子跟未來有相關性的可能性還是有的, 至於這可能性是低還是高, 就只有神才知道了。

而跟未來相關性高的因子, 而且還未反應在股價上的資訊也還是有的, 像是一些總經或原物料指標, 不過這不是本篇的重點, 就先略過。 這次想介紹的指標是網路趨勢因子, 簡單的說, 就是一間公司被大眾關注的趨勢。 

今天在投資市場, 有持續被高估的公司, 也有持續被低估的公司, 而會造成這些不一致評價的原因, 就在於大眾對這間公司未來的前景做的預測, 反應在現在的估值中。 因為是對未來的預測, 所以有可能是高估的, 也有可能是低估的, 有可能是被一大堆人關注的, 也有可能是一直不被大眾關心的。 而網路趨勢因子, 就是想找出有這種變化的公司, 今天一間公司的網路趨勢如果有大幅變化, 代表可能有大事發生, 而這件事是好或是壞, 跟公司體質有關還是無關, 這個就必須確認才知道, 不過至少可以預先找出可能會反應在股票市場的標的。


前面廢話講話了, 簡單的說就是, 藉由網路趨勢因子, 我們可以找出一間公司可能有大事發生了, 在投資市場反應之前, 我們可能就可以先做些什麼。 網路趨勢因子很多, 可以去分析reddit, twitter社群網站, 或是網路搜尋的關鍵字搜尋趨勢等等。 而這次Norn-StockScreener網站改版整合了Google Trend網站, 取得美股數千間公司的公司名稱關鍵字的搜尋趨勢, 然後整理到Norn-StockScreener網站。 結果如下:


網址: https://norn-stockscreener.zmcx16.moe/google-trend-stocks/

Github: https://github.com/zmcx16/Norn-StockScreener

資料更新頻率: 每12小時


這個表格包含了Google Trend的各段時間趨勢結果的近N天最大值, 分別是: 近一周最近三天最大值; 近一月最近3天, 7天, 14天最大值; 近一季最近7天, 14天, 21天最大值; 近一年最近14天, 21天最大值; 以及上述資料的平均值(Avg)。 會整理這麼多數字的主要原因是, Google Trend的資料非常不親民...。以近一周的資料來說, Google Trend提供了每小時的搜尋趨勢; 而以近一月的資料來說, 則是提供每天的搜尋趨勢, 可是給的資料卻只到數天前, 近三天左右的資料可能都沒有; 而近一年的資料則更是只有每周單位的資料, 所以根本沒辦法只用近一年的資訊去做分析...。

除此之外, Google Trend給的資料只有那個時間段的相對趨勢, 並以0~100分表示, 這代表以近一周資料的100分, 可能只是近一年資料的10分或20分, 這讓你想把每周資料跟每年資料去做整合分析變得更加困難...。 所以最後網站只能把這些資料用近N天的最大值分別表示出來, 再自行去分析判斷了...。

網站用法的話, 可以先看平均值, 如果分數高就代表以周, 月, 季, 年的Google Trend資料來說, 這間公司最近的網路搜尋很高, 這有兩種情況, 一種是忽然飆高, 那可能就是我們想找的, 忽然被大眾關注的公司, 例如下圖Avg第一高的CGO:


可以看到, GCO在近期以周, 月, 季, 年的網路搜尋趨勢都達到100分頂標, 至於之後股價會不會有影響, 這就不知道了, 不過看趨勢年線平常的搜尋趨勢就有25~75分, 所以這次趨勢飆漲的幅度其實並不算大。 我是猜未來股價影響的反應不大。

而Avg排行第二高的則是大名鼎鼎的Visa:


Visa的趨勢搜尋一直都很高(75分以上), 就算近期搜尋趨勢更高了, 可能意義也不大, 對股價八成也不太有影響。

至於我們真正想找的, 應該是平常搜尋趨勢很低, 近期卻忽然飆高的, 可是這種公司可遇而不可求, 如果從過去資料來看, 我們可以看看GME之亂那時的Google趨勢以及股價的對應關係:


可以看到以Google Trend年線來看, 平常GME的搜尋趨勢本身就不高(25分以下), 而忽然爆漲到100分最高點時, GME的股價還在甜甜的76塊, 如果我們在那時就進場, 那獲取高報酬的機率就大大增加了。

以目前的表格來說, 還沒辦法只找出GME這種趨勢的公司, Avg高只能找出搜尋趨勢近期相對高的, 所以有可能是大公司那種平常搜尋趨勢就高, 最近忽然更高; 或是像GME這種忽然搜尋趨勢飆高, 所以現在只能一個一個點, 看圖才能知道...。

這塊改進的部分我會在想一想, 能不能在加個統計結果只找出GME這類標的, 姑且是除了近N天最大值, 也加了近N天最大值除平均, 這樣就可以知道這最大值的相對高點比率; 再加一個統合平均, 成果來說姑且看起來是有用, 不過排序下來排最前面的都是平常幾乎沒有聲量的小公司, 反而看不到平時有些搜尋熱度的中大型公司了... 這塊不知道還有沒有一個好的公式可以用, 需要再研究看看, 或是有人有想到的好的公式或建議, 在麻煩跟我說, 感謝!!


P.S. 另外還有個沒辦法克服的問題, 因為網站資料是每12小時更新一次, 而Google Trend網站的資料提供的又是相對趨勢的資料, 這代表Norn-StockScreener網站上看到的數字, 可能跟Google Trend即時看到的數值會完全不一樣, 只有趨勢會是一樣的, 而且Google Trend網站的最後一筆數字是partial的, 這個值基本上算是outlier, 我自己觀察常常拿到的時候不是0分就是100分, 可是在過一段時間後就完全不一樣..., 可是以天為單位的數字來說, 這最新一筆資料又是最重要的, 不看也不行, 真心無奈啊...。

2021年8月2日 星期一

MahoMangaDownloaderVer14.6 & 14.5更新

昨天發布更新後, 就有不少使用者留言, 內容大致如下:

1. Ver14.5版本在下載coco漫畫時程式會不定時強制結束(crash)

2. dm5.com無法下載

3. lovehug.net網站無法瀏覽, 更換後的網域名為welovemanga.net


關於第一個問題, 因為這次針對coco漫畫導入cloudflare的防護措施, 下載器改用節錄cefsharp封包的方式儲存圖檔, 這塊做好後我大致測過一下就出新版了, 沒有做壓測所以沒踩到這個雷, 今天測了下有reproduce出來了, 問題在節錄封包的程式碼, 這塊我是stackoverflow直接抄來的, 沒注意到其實有人有留comment說有bug, 直接就開心的拿來用了QQ

https://stackoverflow.com/questions/45816851/using-cefsharp-to-capture-resource-response-data-body

底下留言也有提供cefsharp官方的使用手冊, 以及response-filtering的範例程式, 使用以後測試完看來是沒問題了, 果然比起google找答案, 官方手冊才是聖經阿, 只是太長了不太可能一整個看完, 也用不到那麼多功能...。

https://github.com/cefsharp/CefSharp/wiki/General-Usage#response-filtering

另外還有改一個小地方, 因為coco漫畫現在改成用瀏覽器側錄的方式載圖, 可是網站的圖片都是用lazy loading, 我只能控制瀏覽器的滾軸拉到最低或跳來跳去, 強迫他去下載所有圖片, 因為這有點機率性的去戳他逼瀏覽器載圖, 所以如果是頁數太多的漫畫會有點卡, 這個就沒輒了, 畢竟現在也只能100%靠瀏覽器套件, 不能parser寫好打request去載圖...。


至於 dm5.com無法下載問題, 看了下 dm5.com網站整個不給連了(403 error), 不過dm5 cn域名(dm5.cn)可以正常瀏覽, 看起來是網站方把.com封掉只營運.cn域名, 這塊就讓下載器多支援cn域名就好~, 而lovehug網站換域名問題也是一樣, 只是我用瀏覽器試了下welovemanga網站, 裡面的圖片都是死的, 感覺是網站還在建置沒搞好, 這塊就先改支援域名, 之後就等網站好了在看有沒有需要修~。


Ver14.6 更新內容:

* 修復Ver14.5版下載coco漫畫時會機率性crash問題
* 支援dm5.cn域名
* 支援welovemanga.net域名

檔案位址:

https://drive.google.com/file/d/1HSxq2ZRdTekhaQlTWtWIB28mrzHT1e4S/view?usp=sharing


32位元版本:

https://drive.google.com/file/d/1v_WytaaovEnPlk_QAdAkRNTNuFPcfXOO/view?usp=sharing


2021年7月4日 星期日

[網站開發] 新增Market Correlation Matrix頁面 - 美股搜尋網站 Norn-StockScreener

接前篇:

[網站開發] 個人網站新增Monitor頁面, 多因子選股模型新增盈餘殖利率(最近一季)因子

分散投資這個概念, 在不少投資相關的書籍都有重點篇幅介紹, 藉由分散投資把資產配置到不同的標的, 可以達到分散風險的效果。 甚至我看過的某本書有提到, 投資這件事中唯一免費的午餐, 就只有分散投資了, 可以想見這本書多麼重視分散投資這件事。 

至於要怎麼做到分散投資, 從大角度來看, 你可以把資產分配到各個不同的國家, 這樣你的資產就不會因為某個國家出現問題, 而造成資產大幅縮水; 你也可以把資產配置到不同金融商品, 像是股票、債劵、房地產、儲蓄險, 這樣你的資產就不會因為單一市場的動蕩造成資產大幅減少; 另外把範圍再縮到更小, 你可以把資金配置到不同產業的股票, 這樣就不會因為某個產業因為政治或環境問題而衰退, 或是某間公司出現重大危機事件, 一次損失大筆財產。


這次新增的Market Correlation Matrix頁面, 主要是針對上述的最後一項, 透過選擇不同產業的公司投資來達到分散風險的效果。 今天分散投資, 不是說把資金分散到不同的標的就沒問題了, 這些標的還必須不能有太大的相關性才行。 

舉個例來說, 今天你把資金分散配置到十間不同的石油開採公司, 那基本上只能避免單一公司因為個別公司問題產生的風險(e.g. 公司掏空, 財務危機等), 沒辦法降低承受的產業風險, 因為所有的石油公司的營運獲利都與石油價格 & 供需有高度相關, 雖然你分散投資了十間石油公司, 可是相對來說你等於只投資了"石油"這個單一產業, 你的資產會隨著石油價格與供需大幅變化, 今天要是石油價格大跌, 你的資產可能就會大幅縮水甚至歸零(就像幾年前的深海鑽油產業一樣, 如果你不幸投資的還不是頁岩油而是深海鑽油的話...)

至於要怎麼知道各產業以及各公司的相關性, 可以用每日價格計算相關係數, 像是皮爾森相關係數(Pearson product-moment correlation coefficient), 斯皮爾曼相關係數(Spearman's rank correlation coefficient)等等..., 這不是這篇的重點, 有興趣的可以參考下面的連結:

皮爾森積差相關分析(Pearson Correlation)-說明與SPSS操作


如果要自己計算相關係數, 可以把想要比較的兩個產業市場指標或是公司股價的每日收盤價用一段時間做相關係數的計算, 這樣就可以得到兩個產業或公司的相關性, 以皮爾森相關係數來說, 0是無相關性, 越大於0就是正相關性越高(A漲B也漲的機率越大, 反之跌亦然), 1的話則是完全一致; 而越小於0則是負相關性越高(A漲B卻跌的機率越大, 反之亦然), -1則是完全負相關。

不想自己找資料計算的話, 現在不少網站都有提供相關係數的計算, 例如這篇文章就有詳細介紹以及提供可取得的網站:

資產相關係數解讀,配置多元投資組合的必勝方程式

Asset Correlations


雖然有網站可以幫忙計算各市場指標 & 各公司比較的相關係數, 可是以我個人來說還是很不方便, 因為市場指標以及上市公司太多了, 如果是檢視目前我感興趣或持有個股標的的所有相關性, 那我得做1+2+3+...(n-1)次才行, 我也找不到有網站提供各產業或各公司的Correlation Matrix (也不意外, 畢竟這麼多指標跟上市公司, 根本畫不出來這麼大的矩陣), 所以後來想想, 各個公司是不可能了(自己持有的公司倒行), 各產業總該可以吧, 畢竟以GICS標準來說就只有157個子產業, 就決定來做個以產業為主的市場指標的相關性矩陣頁面了!

做完的成果如下:

https://norn-stockscreener.zmcx16.moe/market-correlation-matrix/


上面是把我目前整合好的市場指標一年資料用皮爾森相關係數做成Correlation Matrix, 可以看見以這一年的資料來說, 大部分的產業都是正相關, 畢竟最近這一年大盤整個大漲, 原物料也大漲, 什麼都漲的情況也不意外...。 不過各產業之間的正相關性還是有大幅相關跟輕度相關的差異, 像藍色比較淡的就是低度相關, 我們在挑選分散投資的產業時, 就可以挑選產業之間彼此低度相關的公司, 這樣單一產業大跌時其他標的就比較不會受影響。

而上面有兩條比較有意思的地方, 第一個是對其他產業的相關性幾乎全白的指標: WSJMXUSMENT

這是娛樂產業指標, 因為這一年疫情的關係, 娛樂產業是好壞參半, 實體產業營運應該是大幅虧損, 而線上娛樂的部分則大概獲利頗豐, 所以這一年的價格沒有跟著大盤跑其實不太意外。


而第二條紅色的則是黃金的現貨價格以及市場指標, 黃金的價格本來就跟股市大盤沒有相關性, 而至於不是白色而是紅色的關係, 我在想應該是大盤這一年瘋狂上漲, 而黃金則是從最高價2000跌到1800以下, 跟大盤這一年的表現呈現負相關, 所以才會是紅色 (明年就不知道了, 不過我想之後應該會漸漸從紅色轉成白色, 至少應該不會變成藍色)。


最後想表達一個重點是, 分散投資不是只要挑相關性低甚至負相關性的產業做配置就好, 不如說這樣是十分危險的, 像最近一年大盤狂漲, 你要是為了分散風險去買負相關性高的黃金, 那對你的整體報酬反而是大大扣分! 而如果挑選相關性過低的產業(e.g. 娛樂產業)也是小扣分, 而這也不是說你該買相關性高的產業, 畢竟這樣分散投資就沒意義了, 大多數產業相關性高是最近一年大盤跟原物料大漲的關係, 不代表未來也是這樣, 沒辦法預測未來的情況這樣做一樣風險很大。

要做分散投資, 該看的不僅僅是相關係數, 相關係數能表達的只有相關性, 你看不到那個相關性的變化等級以及背後的原因, A第一天漲10%第二天漲20%, 跟B第一天漲100%第二天漲200%, 相關係數都同樣是1, 可是代表的意思卻完全不同。 在用相關係數決定資產配置時, 還必須思考這產業的波動, 風險以及未來的前景等等, 如果只靠相關係數決定資產配置, 那只是在幫你的資產報酬打折扣, 甚至還可能造成大幅資產報酬大幅衰減, 在使用這個系數的時候, 必須仔細思考其他各種因素才行。


2021年6月26日 星期六

[網站開發] 個人網站新增Monitor頁面, 多因子選股模型新增盈餘殖利率(最近一季)因子

目前自己的投資方式, 主要都是有累積一筆錢後, 或是想轉換標的時, 才會開始找有沒有新的好標的可以投資, 最近覺得這樣的方式有點太怠惰了, 想要有個頁面可以每天甚至不論何時, 都可以看到是否有自己感興趣的投資標的出現, 這樣有空就可以隨時看一下, 發現有好標的就可以先加到追蹤清單, 到時候機會來了或想轉換標的時選擇也更多~。


目前這頁面想到的需求如下:

1. 類即時的條件選股表格 (沒有打算做短線當沖, 不過至少資料延遲不超過10分鐘)

2. 資料呈現不僅限個股過濾, 也希望包含指數, 產業等指標

3. 未來新增相同類型的表格時, 希望能不用重新寫前後端code, 只要config修改一下就好


目前做好的第一版頁面如下 (暫不對外開放即時更新功能):

https://project.zmcx16.moe/?page=investment-monitor


這個monitor頁面有三個表格, 分別是:

1. All Stock, Change Order 200 - 當天漲幅最高的前200檔個股

2. P/B < 2 & Target Price > Current, Change Order 200 - 股價淨值比小於2, 目前股價小於分析師目標價, 符合上述條件下當天漲幅最高的前200檔個股

3. All Industry, Change Order - 所有產業個股的目前資訊


如果要新增或修改個股過濾表格, 或是群組表格(e.g. 所有產業), 只要改config就好:


這邊也有想過要不要乾脆把新增表格的config直接移到網頁上讓使用者可以自己新增修改, 可是後來想想, 因為這個頁面會定時refresh頁面跟後端要資料, 這塊要是開放使用不知道自己的server開銷會加大多少, 就決定這頁面還是先不對外開放, 必須有API token才能使用, 既然只有自己要用, 那我乾脆直接做在config就好, 畢竟做在網頁的意義不大了~。

以目前monitor頁面來說, 整個頁面的資料都是從Finviz來的, 認真來說只要直接上Finviz網站就能取得一樣的資訊, 還不會有資料延遲, 如果功能只做這樣, 那當然就幾乎沒意義了, 所以之後還會陸續加下面的功能:

1. config增加optional設定, 可以對監控的網址取得的資料做進一步的處理

目前Finviz的Filter功能只有固定的選項可用, 沒辦法做參數的設定以及對單一因子做複合條件, 必須要付費帳號才有這功能, 不過因為現在資料都會先到我的後端server, 所以我可以針對設定的條件做進一步的filter或新增些Finviz網站沒有的資訊。

2. 客製化資料 & 條件過濾

目前的資料源只有針對Finviz既有的頁面做monitor, 目前有想在做客製化monitor的功能, monitor的不是單一網站, 而是複合網站的資料統整起來(e.g. 產業相關的指標, 內部持有人或機構持股近一周變化, 簡單來說就是目前Finviz網站沒有的資料)。


2021年6月20日 星期日

MahoMangaDownloaderVer14.4更新

前幾天有使用者回報wnacg的搜尋功能壞了, 看了一下是網站大改版, 把整個搜尋的網址格式還有頁碼格式都改掉了, 只能把搜尋的parser重寫了, 最近還有一堆project等著做, 真希望網站不要太頻繁改版阿...。

另外就是EH站最近發現不少資源開始有重複檔名的問題, 主要原因大概是有上傳者一直在同一個資源網址更新資源, 原本每個圖片檔名都是從1開始, 變成一個資源網址有一堆重複檔名的圖片...。

因為這樣會變成如果程式設定檔設定成下載原檔名, 就沒辦法下載到所有圖片, 可是要是把設定關掉, 會變成cg的資源更新時有問題..., 所以這邊乾脆直接改了下程式的預設設定, 如果發現有重複檔名就直接不下載原檔名了, 至少可以預設解決一些情況, 還是衝到的話就只能針對那個資源手動改設置了...。


再來是慣例的推坑時間, 這次想介紹小時候看的老漫畫: 新功夫旋風兒 - 柔道篇



功夫旋風兒是個系列作品, 主要內容就是搞笑 + 戰鬥 + 一點變態色色的劇情,  第一部是空手道篇 (59集), 戰鬥的成分比較多, 而且涉及的事件也比較大型(牽扯到性命 & 國家等級), 因為是太過久遠前的漫畫, 畫風太久遠不是每個人都看得下去, 不太建議從第一部開始入門。

第二部是這次推薦的柔道篇, 主角功太郎(高中生空手道家)因緣際會成立柔道部要參加校內柔道比賽並打贏某個對手, 戰鬥的部分就比較偏比賽而不是打打殺殺的等級(雖然還是有不少就是~), 劇情部分也當然的搞笑成分較大, 小學時接觸這部作品就真的超喜歡, 下面附上一些劇情片段 (太變態的就不介紹了, 請自行找來看XD)。








反寢技




百太郎(空手道家)的巴投