11日前
PAT:密集なマルチラベル行動検出のための位置情報認識Transformer
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton

要約
本稿では、動画内の複雑な時系列的同時発生行動依存関係を、マルチスケールな時系列特徴を活用することで学習するTransformerベースのネットワーク「PAT」を提案する。従来の手法では、Transformerに組み込まれた自己注意(self-attention)機構が時系列的位置情報(temporal positional information)を失うという問題がある。この問題に対処するため、本研究では(i)自己注意機構に相対的位置符号化(relative positional encoding)を埋め込み、(ii)階層構造を採用しない新しい非階層的ネットワークを設計し、マルチスケールな時系列関係を有効に活用する。近年のTransformerベースのアプローチでは階層的なサブサンプリングプロセスが用いられるが、本研究では、こうした階層構造における自己注意機構と複数のサブサンプリング処理の組み合わせが位置情報の喪失を増大させると指摘する。提案手法の性能は、2つの挑戦的な密なマルチラベルベンチマークデータセット(CharadesおよびMultiTHUMOS)上で評価された結果、それぞれ1.1%および0.6%のmAP向上を達成し、各データセットにおいて新たなSOTA(state-of-the-art)となるmAP値26.5%および44.6%を実現した。さらに、提案ネットワークの各構成要素の寄与を検証するため、広範なアブレーションスタディを実施した。