3ヶ月前
マルチストリーム運動モデリングと相互情報最大化を用いたアクション認識
Yuheng Yang, Haipeng Chen, Zhenguang Liu, Yingda Lyu, Beibei Zhang, Shuang Wu, Zhibo Wang, Kui Ren

要約
行動認識は人工知能分野において長年にわたり根本的かつ魅力的な課題として扱われてきた。このタスクの難しさは、行動の高次元性に加え、微細な運動の詳細を捉える必要がある点に起因する。現在の最先端のアプローチは、主に3次元ユークリッド空間における関節運動の連続データから学習を行うが、単純なユークリッド空間では、運動の背後にある駆動力となる重要な運動特性、例えば関節ごとの角加速度を効率的にモデル化できないという限界がある。さらに、既存の手法は各チャネルに均等に注目する傾向にあり、入力からタスクに必要な特徴を抽出する際に理論的な制約が欠如している。本研究では、上記の課題に三つの観点から取り組む。第一に、運動の高次変化を明示的にモデル化するため、加速度表現を導入する。第二に、マルチストリーム構成とチャネル注目機構を備えた新しいStream-GCNネットワークを提案する。異なる表現(ストリーム)が互いに補完し合い、より正確な行動認識を実現する一方で、注目機構は重要なチャネルに焦点を当てる。第三に、タスクに特化した情報の抽出を最大化するため、特徴レベルでの監視を検討し、これを相互情報量損失(mutual information loss)として定式化する。実験的に、本手法はNTU RGB+D、NTU RGB+D 120、NW-UCLAの3つのベンチマークデータセットにおいて、新たな最先端の性能を達成した。コードは匿名公開され、https://github.com/ActionR-Group/Stream-GCN にて提供されており、研究コミュニティのさらなる発展を期待している。