ボートデータのDataFrameの結合から分割まで
ミズハノメから持ってきたデータは1ヶ月ごとなので、
しゃらくせえので全部合体する。
そのときに(左端)ゴミを消してset_index("dataid")としておく。
またjoinで出走、直前、オッズを結合します。
そうするとなぜかリザルトのrowとずれがあるので
indexのみのシリーズを作ってpd.concatしてoptionのjoin"inner"で共通している部分のみにします。
大体こんな感じ。
それから3万12万3万に分けて
テスト トレインセット(train,test) バックテスト
に使う。
左から2015年9月で終わりが2018年の12月。
オッズを特徴量にしたい場合はトレインセットの始まりが17年の4月ぐらいになるように調整してください。
次回
決定木のeli5を使って特徴量の選別作業から。
460カラムあって使いそうなやつから20個ずつ、
なんとも地味な作業だ。嫌になるぜ。