ボートデータのDataFrameの結合から分割まで

ミズハノメから持ってきたデータは１ヶ月ごとなので、

しゃらくせえので全部合体する。

そのときに（左端）ゴミを消してset_index("dataid")としておく。

またjoinで出走、直前、オッズを結合します。

そうするとなぜかリザルトのrowとずれがあるので

indexのみのシリーズを作ってpd.concatしてoptionのjoin"inner"で共通している部分のみにします。

f:id:nemui3900:20190113191921j:plain

大体こんな感じ。

それから３万１２万３万に分けて

テスト　トレインセット（train,test）　バックテスト

に使う。

左から2015年９月で終わりが2018年の１２月。

オッズを特徴量にしたい場合はトレインセットの始まりが１７年の４月ぐらいになるように調整してください。

次回

決定木のeli5を使って特徴量の選別作業から。

４６０カラムあって使いそうなやつから２０個ずつ、

なんとも地味な作業だ。嫌になるぜ。