おじさん、以下のサイトで株価はマーケットや業種ごとに傾向がことなることを勉強しました。
https://qiita.com/blog_UKI/items/25dc1c2559c61890a449
なるほど、ウイリアム・シャープっていうノーベル賞を受賞したおちゃんが言っているのね。
何言ってるのかよくわからん。
けど、機械学習とかって論文や資料が全部英語なんだけど、金融経済分野って資料が全部日本語に翻訳されている・・・。
きっとこの分野、お金が有り余ってるに違いない。
株のリターンを計算するには、上場企業の「業種」やどのマーケットに上場しているのかのデータが必要らしいです。
Protraの上場企業データベースには、上場しているマーケット情報はあるのですが、業種のデータベースがありません。なので、本日は上場企業の業種のデータベースを作ろうと思ういます。
上場企業の業種の一覧ってどこにあるんだろ?
調べてみると、東京証券取引所にあるみたい。
https://www.jpx.co.jp/markets/statistics-equities/misc/01.html
ここにいろんな企業の株に関するデータがありました。
ここの東証上場銘柄一覧というエクセルの中に業種があるのね。
しかしこのエクセル、「食品 」のように業種の文字のあとにスペースが入ってる・・・。
たしかに見た感じわかんないひっかけだけど、微妙に間違ってるのね。
金融とか証券ってこういうの間違っちゃいけないと思うんだけど・・・。
きっと誰もこのエクセル使っていないのね。
エクセルを見ると、「17業種コード」と「33業種コード」があるらしい。
「17業種コード」は1から連番なのですが、「33業種コード」は7250とか意味不明な数字が・・・
図書館の本の分類の日本十進分類だって連番なのに、Kaggleのようにあちこちにいろんな罠があります。
https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%8D%81%E9%80%B2%E5%88%86%E9%A1%9E%E6%B3%95
こういう不連続なデータをきちんと機械学習できるように連番にしていきます。
データを正確に分類するのって結構大変なのね。
ということで、いろいろ罠があり時間がかかってしまいましたが、上場企業の業種のライブラリができた!
https://github.com/yomei-o/Protra_cpp/blob/main/src/Industory.h
0 件のコメント:
コメントを投稿