2ヶ月前

動画内の行動定位のための階層的自己注意機構ネットワーク

{ Wen-Hsien Fang, Yie-Tarng Chen, Rizard Renanda Adhi Pramono}

要約

本稿では、動画内の行動局所化（action localization）に向けた空間時間的チューブ（spatial-temporal tubes）を生成するための新規な階層的自己注意ネットワーク（Hierarchical Self-Attention Network, HISAN）を提案する。HISANの核となる構造は、二重ストリーム畳み込みニューラルネットワーク（CNN）と階層的双方向自己注意機構（hierarchical bidirectional self-attention mechanism）を統合することであり、この機構は二段階の双方向自己注意構造を備え、長期的な時系列依存性と空間的文脈情報を効果的に捉えることで、より高精度な行動局所化を実現する。さらに、遮蔽や背景の雑多さによって引き起こされる検出スコアの不一致問題を解消するため、シーケンス再スコアリング（sequence rescoring, SR）アルゴリズムを導入している。また、新たな融合手法を採用しており、二重ストリームネットワークから得られる外観情報と運動情報に加え、運動サリエンシー（motion saliency）を統合することで、カメラの運動による影響を低減している。シミュレーション結果から、提案手法は広く用いられるUCF101-24およびJ-HMDBデータセットにおいて、行動局所化および認識精度の面で最先端技術と比較して競争力のある性能を達成することが明らかになった。