
要約
時系列行動検出(Temporal Action Detection, TAD)は、動画理解において重要かつ挑戦的なタスクである。本タスクの目的は、トリムされていない動画内に存在するすべての行動インスタンスについて、同時にその意味的ラベルと時間的区間を予測することにある。現在の大多数の手法は、エンドツーエンド学習ではなく、ヘッドのみの学習パラダイムを採用している。すなわち、動画エンコーダは事前学習により行動分類に用いられ、その後、エンコーダの上に配置された検出ヘッドのみがTADのために最適化される。一方で、エンドツーエンド学習の効果については体系的な評価が行われておらず、さらに、エンドツーエンドTADにおける効率性と精度のトレードオフに関する深い分析も不足している。本論文では、エンドツーエンド時系列行動検出に関する実証的研究を提示する。我々は、ヘッドのみの学習に対してエンドツーエンド学習が有する優位性を検証し、最大で11%の性能向上を観察した。また、検出ヘッド、動画エンコーダ、入力動画の解像度といった複数の設計選択がTADの性能と速度に与える影響についても検討した。これらの知見をもとに、中解像度のベースライン検出器を構築した。この検出器は、エンドツーエンド手法において最新の性能を達成しつつ、4倍以上高速に動作することが可能である。本研究が、エンドツーエンド学習の実践におけるガイドラインとして機能し、今後の研究を促進することを期待している。コードおよびモデルは、\url{https://github.com/xlliu7/E2E-TAD} にて公開されている。