HyperAIHyperAI

Command Palette

Search for a command to run...

B2C-AFM:人間行動認識のための双方向的同時時空間注意力融合モデル

and Jiakai Zhu Wei Song Qiwei Meng Wen Wang Xiangming Xi Shiqiang Zhu Tianlei Jin Fangtai Guo

概要

人間行動認識は、多数のヒューマンコンピュータインタラクション(HCI)アプリケーションを牽引する基盤技術である。現在の多数の研究は、RGB画像、人体ポーズ、光流(optical flows)といった複数の同質的モダリティを統合することで、モデルの汎化性能を向上させることに注力している。さらに、文脈的相互作用や文脈外の手話言語が、シーンのカテゴリーや人間そのものに依存することが実証されている。外見特徴と人体ポーズの統合に関するこれらの試みは、肯定的な結果を示している。しかし、人体ポーズに伴う空間的誤差と時間的曖昧性の問題により、従来の手法はスケーラビリティの欠如、限られたロバスト性、最適でないモデル性能といった課題に直面している。本論文では、異なるモダリティが時間的に一貫性を保ち、空間的に補完し合う可能性があるという仮定に着目し、新しい双方向的同時時空間注意力融合モデル(Bi-directional Co-temporal and Cross-spatial Attention Fusion Model, B2C-AFM)を提案する。本モデルの特徴は、時間的および空間的次元に沿った非同期な多モーダル特徴融合戦略にあり、さらに時間的曖昧性を緩和するために、運動指向の明示的なポーズ表現として「肢節フローフィールド(Limb Flow Fields, Lff)」という新しい表現を導入している。公開データセット上での実験により、本研究の貢献が検証された。豊富なアブレーション研究を通じて、B2C-AFMが見知らぬ人間行動に対しても堅牢な性能を発揮することが実証された。コードは https://github.com/gftww/B2C.git にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています