
要約
現在の最先端の空間時間行動検出手法は、印象的な結果を達成していますが、時間範囲検出についてはまだ満足できるものではありません。その主な理由は、実際の行動に類似した曖昧な状態が存在し、これらが高性能なネットワークでも目標行動と誤認される可能性があるためです。本論文では、これらの曖昧なサンプルを「遷移状態(transitional states)」と定義し、遷移状態を区別するための遷移認識コンテキストネットワーク(Transition-Aware Context Network: TACNet)を提案します。提案されたTACNetは、時間コンテキスト検出器と遷移認識分類器という2つの主要な構成要素からなります。時間コンテキスト検出器は、再帰型ネットワークを構築することで一定の時間計算量で長期的なコンテキスト情報を抽出できます。遷移認識分類器は、行動と遷移状態を同時に分類することにより、さらに遷移状態を区別することができます。したがって、提案されたTACNetは空間時間行動検出の性能を大幅に向上させることができます。私たちはUCF101-24およびJ-HMDBデータセットにおいて提案されたTACNetを広範に評価しました。実験結果は、TACNetがJHMDBで競争力のある性能を得ていることと、フレーム-mAPおよびビデオ-mAPの両面で未編集UCF101-24において最先端手法を大幅に上回っていることを示しています。