7日前
フットボールイベントの検出における二重ストリーム畳み込みニューラルネットワークと拡張再帰型ニューラルネットワークの活用
{Ram Gopal Raj, Erma Rahayu Mohd Faizal, Behzad Mahaseni}
要約
本論文は、長時間のフットボール(サッカー)動画におけるイベント検出および局所化問題に取り組む。本研究の核心的なアイデアは、長時間のフットボール動画における正確なイベント局所化には、動画フレーム間の長距離依存関係を理解することが不可欠であるということである。さらに、隣接フレーム間の中距離および短距離相関を考慮しない限り、フットボール動画における高速な動きの適切なイベント検出は困難である。我々は、一貫したアーキテクチャ内で短距離から長距離までのフレーム依存関係を統合的に考慮することにより、イベントスポットリング(spotting)の性能を著しく向上させられると主張する。長距離および中距離依存関係をモデル化するため、二系統の畳み込みニューラルネットワーク(Two-stream CNN)特徴量を基盤とし、拡張された再帰型ニューラルネットワーク(DilatedRNN)を用いる手法を提案する。Two-stream CNNは、細部まで正確に捉えるために必要な局所的な空間時間的特徴を抽出する一方、DilatedRNNは遠方のフレームから得られた情報を分類器およびスポットリングアルゴリズムに活用可能にする。公開されている最大規模のベンチマークフットボールデータセットであるSoccerNet上で本手法のイベントスポットリング性能を評価した結果、最先端手法に対して0.8%~13.6%の精度向上が得られ、ベースライン手法と比較して最大で30.1%の精度向上を達成した。また、広範なアブレーションスタディを通じて、各ニューラルネットワーク構成要素がスポットリング精度に寄与する程度を詳細に検証した。