17日前

B2C-AFM:人間行動認識のための双方向的同時時空間注意力融合モデル

{and Jiakai Zhu, Wei Song, Qiwei Meng, Wen Wang, Xiangming Xi, Shiqiang Zhu, Tianlei Jin, Fangtai Guo}
要約

人間行動認識は、多数のヒューマンコンピュータインタラクション(HCI)アプリケーションを牽引する基盤技術である。現在の多数の研究は、RGB画像、人体ポーズ、光流(optical flows)といった複数の同質的モダリティを統合することで、モデルの汎化性能を向上させることに注力している。さらに、文脈的相互作用や文脈外の手話言語が、シーンのカテゴリーや人間そのものに依存することが実証されている。外見特徴と人体ポーズの統合に関するこれらの試みは、肯定的な結果を示している。しかし、人体ポーズに伴う空間的誤差と時間的曖昧性の問題により、従来の手法はスケーラビリティの欠如、限られたロバスト性、最適でないモデル性能といった課題に直面している。本論文では、異なるモダリティが時間的に一貫性を保ち、空間的に補完し合う可能性があるという仮定に着目し、新しい双方向的同時時空間注意力融合モデル(Bi-directional Co-temporal and Cross-spatial Attention Fusion Model, B2C-AFM)を提案する。本モデルの特徴は、時間的および空間的次元に沿った非同期な多モーダル特徴融合戦略にあり、さらに時間的曖昧性を緩和するために、運動指向の明示的なポーズ表現として「肢節フローフィールド(Limb Flow Fields, Lff)」という新しい表現を導入している。公開データセット上での実験により、本研究の貢献が検証された。豊富なアブレーション研究を通じて、B2C-AFMが見知らぬ人間行動に対しても堅牢な性能を発揮することが実証された。コードは https://github.com/gftww/B2C.git にて公開されている。