エンドツーエンド型トランスフォーマーを用いた時系列行動検出

時系列行動検出(Temporal Action Detection, TAD)は、トリムされていない動画内におけるすべての行動インスタンスについて、その意味的ラベルと時間区間を特定することを目的としている。これは動画理解における基盤的かつ困難なタスクである。従来の手法は複雑なパイプラインを用いてこのタスクに取り組んでおり、複数のネットワークを学習させる必要があり、非最大抑制(non-maximal suppression)やアンカー生成といった手動で設計された操作を含むことが多く、柔軟性を制限し、エンド・トゥ・エンド学習を阻害する要因となっていた。本論文では、TADに適応したエンド・トゥ・エンド型のTransformerベースの手法、TadTRを提案する。TadTRは、行動クエリと呼ばれる少数の学習可能な埋め込みを入力として用い、各クエリに対して動画から適応的に時系列的な文脈情報を抽出し、その文脈を用いて直接行動インスタンスを予測する。TransformerをTADに適応させるために、局所性認識能力を強化するための3つの改良を提案する。その中心となるのは、動画内のスパースなキースニペット群に選択的に注目する時系列可変アテンションモジュールである。さらに、予測されたインスタンスの境界を精緻化するためのセグメント精製機構と、信頼度を回帰するためのアクションネス回帰ヘッドを設計した。このシンプルなパイプラインにより、TadTRは従来の検出器よりも低い計算コストで、優れた性能を維持している。自己完結型の検出器として、THUMOS14(56.7% mAP)、HACS Segments(32.09% mAP)において最先端の性能を達成した。さらに追加の行動分類器を組み合わせることで、ActivityNet-1.3において36.75% mAPを達成した。コードは https://github.com/xlliu7/TadTR で公開されている。