Market ひろしまQuest2020プロ野球配球予測【予測部門】

難易度:★★★★☆

  • 業種
  • エンタメ・レジャー
  • テーブル
  • 分類問題
  • 決定木

昨今、スポーツ業界でもデータ分析や人工知能を用いる例が増えてきています。 テニス、バレーボール、サッカーといった対戦型スポーツではデータをリアルタイムに収集し、 監督やコーチが収集データから試合状況を分析して、より効果的な戦術を見つけ出して試合中の選手に伝えるという取り組みがあります。 選手のコンディション管理や調子の推定に人工知能を用いる事例などもあります。 そこで、本Questでは過去SIGNATEで開催されたコンペ「ひろしまQuest2020」(https://signate.jp/competitions/274)の上位入賞者の解法を元に球種予測を行う分類モデルの作成方法についてを学んでいきます。

  • 5 時間
  • 2,700 Exp
  • 0 Videos
  • 9 Slides
  • 4 Missions
  • 15 Tasks
  • 45 Operations

Introduction 50 Exp

過去SIGNATE上で「ひろしまQuest2020#stayhome:プロ野球データを用いた配球予測」というひろしまサンドボックス推進協議会事務局に主催していただいたコンペが開催されました。
そのコンペでは過去3年分のプロ野球データを用いて球種を予測するというアルゴリズムを競うというものでした。
では、球種をうまく予測するためにはどんな特徴量が必要となるでしょうか?
投手の利き手や試合中の得点差など様々な要素が関係しそうですね。
上位者がどのようにコンペに挑んでいたのかも含めて、野球に詳しい方も詳しくない方も特徴量作成の仕方や複数のモデリングの仕方などの中級者向けの精度向上のテクニックを学んでいきましょう。

Slideを見る

Mission 1

データの読み込み

コンペティションに参加する場合やデータ分析を行う場合で1番大切なことはデータを入念に確認することです。
今回のコンペでの提供データでは投球単位のデータと選手単位のデータの2つのデータが存在しました。
その中で個別にどんな情報を持ったデータなのか、2つのデータはどのように関係付けることができるのかなど確認するべきことが様々あります。
データを読み込んで今回の題材となるデータの概要を確認しましょう。

Slide 1
データの読み込み
    50 Exp

    Mission 2

    探索的分析と特徴量作成

    コンペを闘って行く上で大切な工程が2つあり、その2つを探索的分析と特徴量作成と言います。
    探索的分析とは欠損値や重複データの確認、データの分布、データ間の関係性やそのばらつきを見ることを言います。
    特徴量作成とはモデルの精度向上のために与えられたデータから新たな特徴を作成することを言います。
    今回はひろしまコンペにて上位になった人たちの探索的分析や特徴量作成も踏まえて、様々な観点から手法や観点を学んでいきましょう。

    Slide 1
    探索的分析と特徴量作成
      50 Exp

      Mission 3

      球種予測モデルの作成

      通常コンペでは予測ファイルをコンペサイトでサブミットしないとスコアを確認することができません。
      しかし精度向上のために施策を打って、その結果をサブミットしないと確認できないとなると少し不便ではありませんか?
      そのような場合に備えて、モデルの妥当性を検証する方法の1つとしてクロスバリデーション(CV)と呼ばれる検証方法が存在します。
      CVは実務でもAIの精度をちゃんと評価するために重要な設計の1つになります。
      今回はこのCVと呼ばれる検証方法を使いながら、複数のアルゴリズムのモデルを作成していきます。
      いつものクエストに比べると複雑ではありますが、この工程を学ぶことができれば様々なテーブルデータコンペで対応することができる重要なミッションとなります。
      ぜひ少しずつでも良いので噛み砕いていきながら学んでいきましょう。

      Slide 1
      球種予測モデルの作成
        50 Exp

        Mission 4

        球種予測モデルの改善

        精度向上のためには様々な方法があります。
        今回は複数のモデルの推論結果を使ってアンサンブルと呼ばれる手法と複数のモデルの積み上げを行う手法のスタッキングを学習していきます。
        ひろしまコンペの上位者も必ずといっていいほど、アンサンブルもしくはスタッキングを使用してスコアブーストをしていましので上位に入り込むための大切な手法となりますので丁寧に学んでいきましょう。

        Slide 1
        球種予測モデルの改善
          50 Exp

          Conclusion 50 Exp

          今回のコンテンツでは、過去のコンペの上位解法のエッセンスを元に学習していくことでクロスバリデーションを使って複数モデルを作成し、精度向上のための方法を学ぶことが目標でした。
          まずデータの読み込みを行い、データを確認しながらどんなことができるかを確認していきました。
          その次に実際に提供されたデータを横や縦に組み合わせたり、ドメイン知識を使って新たな特徴量を作成してきました。
          その後、コンペの概要や評価関数について理解し、球種予測モデル作成ならびに精度向上のためのアンサンブルやスタッキングなどの手法を学んできました。
          コンペで実際に上位になるためには試行錯誤することがたくさんあり大変ではありますが、しっかりコンペと向き合うことで実力が格段と上がっていきます。
          ぜひ、このコンテンツを学習した後にSIGNATEで開催しているコンペティションに参加していただき、今回の内容を元に精度向上を狙っていきましょう。

          Slideを見る