HyperAIHyperAI

Command Palette

Search for a command to run...

動画内の行動定位のための階層的自己注意機構ネットワーク

Wen-Hsien Fang Yie-Tarng Chen Rizard Renanda Adhi Pramono

概要

本稿では、動画内の行動局所化(action localization)に向けた空間時間的チューブ(spatial-temporal tubes)を生成するための新規な階層的自己注意ネットワーク(Hierarchical Self-Attention Network, HISAN)を提案する。HISANの核となる構造は、二重ストリーム畳み込みニューラルネットワーク(CNN)と階層的双方向自己注意機構(hierarchical bidirectional self-attention mechanism)を統合することであり、この機構は二段階の双方向自己注意構造を備え、長期的な時系列依存性と空間的文脈情報を効果的に捉えることで、より高精度な行動局所化を実現する。さらに、遮蔽や背景の雑多さによって引き起こされる検出スコアの不一致問題を解消するため、シーケンス再スコアリング(sequence rescoring, SR)アルゴリズムを導入している。また、新たな融合手法を採用しており、二重ストリームネットワークから得られる外観情報と運動情報に加え、運動サリエンシー(motion saliency)を統合することで、カメラの運動による影響を低減している。シミュレーション結果から、提案手法は広く用いられるUCF101-24およびJ-HMDBデータセットにおいて、行動局所化および認識精度の面で最先端技術と比較して競争力のある性能を達成することが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています