Speaker

Shinichi Nakagawa

Shinichi Nakagawa

Senior Engineer / Baseball Data Scientist

Tokyo, Japan

Actions

データサイエンス, サーバーサイドエンジニアリング, アジャイルを軸になんでもやってるシニアエンジニアの人.
個人としては「野生の野球データサイエンティスト」として野球データの分析や考察を生きがいに活動しています.

Pythonは2011年からデータサイエンス・Webアプリケーション開発などなどで活用.

なお, 一部のPython使いから「野球の人」と呼ばれている模様.

Area of Expertise

  • Business & Management
  • Media & Information

実践Streamlit & Flask - AIプロジェクトのプロトタイピングから本番運用までをいい感じにするPythonicなやりかた

クラウドサービスの発展・発達ですぐにでもWebサービス立ち上げができたり, ちょっとした機械学習もクラウドサービスでいい感じに出来るようになった昨今。
スタートアップのサービス立ち上げ, 大企業の新規事業やDXなプロジェクトといった「AI・データサイエンスでいい感じなプロダクトが欲しい」という機会が増えた気がします。

例えばJX通信社では, 2021年2月に「AIワクチン接種予測」というプロダクトをリリースしました。
こちらのプロジェクトは限られた期間で「AI・データサイエンスでいい感じにしてくれ」といった比較的難易度が高いオーダーではじまったのですが,

・データサイエンティスト向けのWeb Framework「Streamlit」で概念実証(PoC)
・Flask, FastAPIといった軽量Frameworkを活用し本プロダクト開発・運用
・Google App Engine(GAE), Cloud Runを全力で活用したサーバレスな運用

といった技術スタック・思想でこの難関なプロジェクトを乗り切りました。

このトークでは,

・データサイエンティストがStreamlitでプロトタイプを作りながらPoCを上手く回す方法
・PoCから本サービス開発の移行でFlask/FastAPIを使ったサービス開発の勘所
・GAEやCloud Runといったサーバレス(自分でサーバーの面倒を見ない)なサービスを活用した運用のノウハウ

というストーリーを元に,

・データサイエンティストがやるべきWebアプリケーション開発
・パッケージ構成やテスト, CIを如何にいい感じにやるか?
・クラウドサービスを駆使してTV出演(TV砲)などで突然の高トラフィック対策を求められる際にいい感じにやる方法

といった, 「クラウド・AI全盛期の今どきなWebアプリケーション・サービス開発」をPython使いの視点でご紹介します。

【Outline(予定)】

・自己紹介
・Streamlitを使った爆速プロトタイピング
 - プロトタイプすなわち動くアプリケーション
 - ひとまずStreamlitで作る&共有する
 - 本プロダクト開発を意識したアプリケーション構成とテスト
・Flaskでバックエンドを作る
 - FastAPIとFlaskの使い分け?
 - Streamlitプロトタイプからの移植
・Google App EngineとCloud Runでの本番運用
 - TV砲に耐えるための技術
・小ネタ - 動的なアイキャッチ画像生成をFastAPIで実現する
・まとめ - クラウド&サーバレス時代のアプリケーションの作り方

スポーツデータを用いた特徴量エンジニアリングと野球選手の成績予測 - PythonとRを行ったり来たり

データサイエンスをする人々にとって, 生データを解析し分析可能な数値化を行う「特徴量エンジニアリング」「前処理」は必要不可欠かつ大切なタスクです.

その中でもスポーツデータサイエンスは特徴量エンジニアリング・前処理のやりがいがあるテーマであり, 中には「野球データサイエンスの応用で別の分野の分析に役立てる」というシグナルアンドノイズのような事例もあります.

この発表では, 「特徴量エンジニアリングの勘どころ」「野球選手の成績予測モデル作成と検証」を通じて, スポーツデータサイエンスのみならず, データサイエンス全般に役立つノウハウや知見を「野球の時間」を通じて紹介いたします.

【Outline】

- 自己紹介(5min)
- 特徴量エンジニアリング #とは(10min)
 - 生データの数値化
 - 泥臭い泥臭いアンド泥臭いタスクをシュッとこなす
 - Python/R/SQLを適切に使い分ける
- 野球選手の成績予測アルゴリズムとその実践(15min)
 - 第一人者のネイト・シルバーがやったモデル
 - shinyorke(わたし)がやろうとしているアプローチ
 - PythonとBigQueryでガツッと特徴量抽出
 - 分析そしてその結果は...!?
- まとめ

【補足】
2001〜2019年のメジャーリーグの公開データセットを元に予測を行います(日本のプロ野球ではありません).

PyCon JP 2020 (28th & 29th August) Sessionize Event

August 2020

Shinichi Nakagawa

Senior Engineer / Baseball Data Scientist

Tokyo, Japan

Actions

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Jump to top