
要約
アクション検出は、特に未編集動画の高密度ラベル付きデータセットにおいて、重要な課題である。これらのデータセットには、複合アクション、同時発生アクション、およびインスタンス持続時間の高い時間的変動性といった、実世界での多くの課題が存在する。こうした課題に対処するため、本研究では検出されたアクションのクラス関係と時間的関係の両方を活用することを提案する。本研究では、エンドツーエンド型のネットワークである「クラス・時間的関係ネットワーク(Class-Temporal Relational Network, CTRN)」を導入する。CTRNは以下の3つの主要な構成要素からなる:(1)表現変換モジュール(Representation Transform Module)は、混合表現からクラス固有の特徴を抽出し、グラフ構造データを構築する。(2)クラス・時間モジュール(Class-Temporal Module)は、順次的にクラス間および時間的関係をモデル化する。(3)G-classifierは、スニペット単位での同時発生アクションペアに関する優位な知識を活用し、同時発生アクションの検出性能をさらに向上させる。CTRNは、3つの困難な高密度ラベル付きデータセット上で評価され、最先端の性能を達成した。これにより、本手法の有効性とロバスト性が示された。