
要約
本論文では、MediaEval 2022 ベンチマークのスポーツビデオタスク向けに提案されたベースライン手法について紹介します。このタスクは、トリミング済みビデオからのストローク分類と、未トリミングビデオからのストローク検出という2つのサブタスクを提案しています。本ベースライン手法は、両方のサブタスクに対応しています。我々は、これらの2つのサブタスクを解決するために2種類の3D-CNNアーキテクチャを提案します。両方の3D-CNNは、時空間畳み込み(Spatio-temporal convolutions)と注意機構(attention mechanisms)を使用しています。アーキテクチャと学習プロセスは、対象となるサブタスクに合わせて調整されています。本ベースライン手法は公開されており、参加者の調査を支援し、ビデオ処理や学習方法、評価および提出ルーチンなどのタスクの側面を軽減することを目指しています。分類サブタスクにおいて、我々のv2モデルで86.4%の精度を達成しました。検出サブタスクでは、我々のv1モデルでmAPが0.131、IoUが0.515となっています。