俺にも執筆活動させろボケ

ボートデータのDataFrameの結合から分割まで

ミズハノメから持ってきたデータは1ヶ月ごとなので、

しゃらくせえので全部合体する。

そのときに(左端)ゴミを消してset_index("dataid")としておく。

またjoinで出走、直前、オッズを結合します。

そうするとなぜかリザルトのrowとずれがあるので

indexのみのシリーズを作ってpd.concatしてoptionのjoin"inner"で共通している部分のみにします。

f:id:nemui3900:20190113191921j:plain

大体こんな感じ。

それから3万12万3万に分けて

テスト トレインセット(train,test) バックテスト

に使う。

左から2015年9月で終わりが2018年の12月。

オッズを特徴量にしたい場合はトレインセットの始まりが17年の4月ぐらいになるように調整してください。

 

次回

決定木のeli5を使って特徴量の選別作業から。

460カラムあって使いそうなやつから20個ずつ、

なんとも地味な作業だ。嫌になるぜ。