
要約
時系列畳み込みは、アクションセグメンテーションにおいて従来のパラダイムとして広く用いられてきた。これは畳み込み層の増加によって長距離の受容野を拡大する手法であるが、深層化が進むにつれてフレーム認識に不可欠な局所情報の損失が生じるという問題がある。本稿では、上記の課題を解決するため、新たなエンコーダ・デコーダ構造である「クロス強化トランスフォーマー(Cross-Enhancement Transformer)」を提案する。本手法は、相互作用型の自己注意機構(interactive self-attention mechanism)を活用し、時系列構造表現の有効な学習を可能にする。具体的には、エンコーダの各層で得られた畳み込み特徴マップを、デコーダで自己注意によって生成された特徴群と連結する。これにより、フレーム単位のアクション認識において、局所情報とグローバル情報を同時に活用できる。さらに、過剰なセグメンテーション誤差を罰則する新たな損失関数を提案し、学習プロセスの安定性と精度を向上させた。実験の結果、本フレームワークは、50Salads、Georgia Tech Egocentric Activities、Breakfastの3つの難易度の高いデータセットにおいて、最先端の性能を達成した。