HyperAI

2026年FIFAワールドカップの開幕（6月11日、メキシコシティ）を控え、過去の国際マッチデータを用いた試合結果予測モデルの構築事例が公開された。開発者は1872年から2026年までの約4万9000試合のデータベースを統合し、Eloレーティング、得点情報、開催地データを基に確率論的予測モデルを構築した。データ前処理では、336チームの名称不一致をテキスト処理で解決し、データリークを防止するために試合当日ではなく直前の最新Eloスコアを採用した。さらに、レーティング更新からの経過日を特徴量に追加した。特徴量エンジニアリングでは、ホーム・アウェイ効果、直近の勝率・得失点差、引き分け傾向（直近5〜10試合の引き分け率）、試合文脈（中立地・親善試合など）を網羅的に構築し、チームの勢いや攻撃力・防御力を数値化した。学習は時系列分割で実施した。2018年以前のデータを学習・検証に、2018年以降の約8000試合をテスト用として設定した。ロジスティック回帰をベースラインとし、LightGBMを含む複数のアルゴリズムをグリッドサーチで比較した。結果、LightGBMが検証データで対数損失0.893、テストデータで0.873を記録し最優モデルとして選定された。ただし、線形回帰モデルとの性能差は僅かであり、解釈性の観点から両者が併用可能な水準にある。モデルの確率出力は全体的に良好な較正を示しており、予測置信度と現実の一致度が高い。ホーム勝利の予測は特に精度が高く、約86%の確率で正解している。一方で、試合全体の約22%を占める引き分けの予測が顕著な弱点となっている。テストセットにおける引き分けの再現率は0.11%に留まり、モデルはバランスの取れた試合を引き分けリスクとして認識しつつも、最終的なクラス分類でホーム勝利に偏る傾向が確認された。本プロジェクトは、スポーツ予測における特徴量設計の限界と、単純モデルと複雑モデルのバランスを示すものとなった。今後は引き分け特化型モデルの構築や、選手個人のスタッツデータ統合が次の課題となる。実装コードとデータセットはオープンソースとして公開済みである。

関連リンク

関連リンク

関連リンク

Command Palette

機械学習のW杯予測精度

関連リンク

Command Palette

機械学習のW杯予測精度

関連リンク

Command Palette

機械学習のW杯予測精度

関連リンク