
要約
スポーツ中継の自動制作を目指す上で、試合の高レベルな意味情報の理解が最重要課題となっています。例えば、試合の主要なアクションを認識し、位置特定することで、プロデューサーは中継制作を適応させ、自動化し、試合の重要な詳細に焦点を当てて観客の関与を最大化することが可能になります。本論文では、サッカー中継におけるアクションスポットティングに焦点を当てた分析を行います。これは、サッカー試合の中で主要なアクションを時間的に位置特定することを目的としています。この目的達成のために、NetVLADに基づく新しい特徴量プーリング手法であるNetVLAD++を提案します。この手法は時間的な知識を埋め込むことができます。従来のプーリング手法が時間的なコンテキストを単一のセットとして扱うのに対し、我々はアクションが発生する前後でコンテキストを分割します。アクションスポット周辺のコンテキスト情報を単一のエンティティとして扱うことは、プーリングモジュールにとって最適でない学習につながると主張します。NetVLAD++では、過去と未来のフレームからコンテキストを分離し、各部分集合に対して具体的な意味語彙を学習します。これにより、時間的にその語彙が混ざり合うことを防ぎます。このような事前知識を取り入れることで、より情報量が多く、より判別力のあるプーリングモジュールとプールされた特徴量が得られ、結果としてアクションの理解が向上します。我々は最近公開された大規模データセットSoccerNet-v2を使用して方法論を開発し評価しました。アクションスポットティングにおいて53.4%の平均mAP(Average-mAP)を達成し、現行の最先端技術との比較で+12.7%の改善率を得ました。