11日前

MS-TCT:アクション検出のためのマルチスケール時系列ConvTransformer

Rui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, Francois Bremond
MS-TCT:アクション検出のためのマルチスケール時系列ConvTransformer
要約

アクション検出は、特に未編集動画の密なラベル付きデータセットにおいて、重要な課題でありながらも極めて困難なタスクである。このようなデータセットでは時間的関係が複雑であり、複合アクションや同時発生アクションといった課題を含む。これらの複雑な動画におけるアクション検出には、動画の短期的および長期的時間情報を効率的に捉えることが不可欠である。この目的のため、本研究ではアクション検出を目的とした新しいConvTransformerネットワークを提案する。本ネットワークは以下の3つの主要なモジュールから構成される。(1) 時間エンコーダモジュールは、複数の時間解像度においてグローバルかつローカルな時間的関係を広範に探索する。(2) 時間スケールミキサーモジュールは、マルチスケール特徴を効果的に統合し、一貫した特徴表現を実現する。(3) 分類モジュールは、インスタンス中心に対する相対位置を学習し、フレーム単位の分類スコアを予測する。Charades、TSU、MultiTHUMOSの複数のデータセットにおける広範な実験により、本手法の有効性が確認された。提案手法は、すべての3つのデータセットにおいて、既存の最先端手法を上回る性能を達成した。

MS-TCT:アクション検出のためのマルチスケール時系列ConvTransformer | 最新論文 | HyperAI超神経