Session
スポーツデータを用いた特徴量エンジニアリングと野球選手の成績予測 - PythonとRを行ったり来たり
データサイエンスをする人々にとって, 生データを解析し分析可能な数値化を行う「特徴量エンジニアリング」「前処理」は必要不可欠かつ大切なタスクです.
その中でもスポーツデータサイエンスは特徴量エンジニアリング・前処理のやりがいがあるテーマであり, 中には「野球データサイエンスの応用で別の分野の分析に役立てる」というシグナルアンドノイズのような事例もあります.
この発表では, 「特徴量エンジニアリングの勘どころ」「野球選手の成績予測モデル作成と検証」を通じて, スポーツデータサイエンスのみならず, データサイエンス全般に役立つノウハウや知見を「野球の時間」を通じて紹介いたします.
【Outline】
- 自己紹介(5min)
- 特徴量エンジニアリング #とは(10min)
- 生データの数値化
- 泥臭い泥臭いアンド泥臭いタスクをシュッとこなす
- Python/R/SQLを適切に使い分ける
- 野球選手の成績予測アルゴリズムとその実践(15min)
- 第一人者のネイト・シルバーがやったモデル
- shinyorke(わたし)がやろうとしているアプローチ
- PythonとBigQueryでガツッと特徴量抽出
- 分析そしてその結果は...!?
- まとめ
【補足】
2001〜2019年のメジャーリーグの公開データセットを元に予測を行います(日本のプロ野球ではありません).
Shinichi Nakagawa
Senior Engineer / Baseball Data Scientist
Tokyo, Japan
Links
Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.
Jump to top