2ヶ月前
粗いアノテーションのスポーツ動画におけるイベント検出を並列多受容野1D畳み込みを用いて行う
Vats, Kanav ; Fani, Mehrnaz ; Walters, Pascale ; Clausi, David A. ; Zelek, John

要約
スポーツビデオ解析などの問題では、長時間のビデオと膨大な量のビデオデータのため、正確なフレームレベルのアノテーションやイベントの正確な持続時間を得ることが困難です。特にアイスホッケーのような高速な競技では、この問題がより顕著になります。粗いスケールでのアノテーションを取得することは、実践的で効率的であることが多いです。本研究では、粗くアノテートされたビデオにおけるイベント検出タスクを提案します。また、提案タスクに適したマルチタワーテンポラル畳み込みネットワーク(Multi-Tower Temporal Convolutional Network)アーキテクチャを導入します。このネットワークは複数の受容野(receptive field)を用いて、様々な時間スケールで情報を処理し、イベントの正確な位置や持続時間に関する不確実性に対応します。我々は適切な削減実験(ablation study)を通じて、マルチ受容野アーキテクチャの有効性を示します。本手法はNHLデータセットにおける粗くアノテートされたホッケー動画のイベント検出とSoccerNetデータセットにおけるサッカー動画のイベントスポットティングという2つのタスクで評価されました。これらの2つのデータセットはフレームレベルのアノテーションが欠けており、非常に異なるイベント頻度を持っています。実験結果は、NHLデータセットで平均F1スコア55%を達成し、SoccerNetデータセットでは最先端技術と比較して競争力のある性能を示すことでネットワークの有効性を証明しています。我々は本アプローチがスポーツビデオにおけるイベント検出のより実践的なパイプライン開発に貢献すると信じています。