
骨格に基づく行動認識は、簡潔かつ耐障害性に優れた骨格情報を活用する点から、近年大きな注目を集めています。しかし、骨格情報には詳細な身体情報が欠けているため、性能に限界が生じます。一方、他のマルチモーダル手法は、学習および推論の両フェーズで膨大な推論リソースを要し、効率性に欠けるという課題があります。こうした問題を解決しつつ、マルチモーダル特徴の補完性を最大限に活かすために、本研究ではマルチモーダル大規模言語モデル(LLM)を補助ネットワークとして活用し、効率的な骨格ベース行動認識を実現する新しいマルチモーダル共同学習(MMCL)フレームワークを提案します。本フレームワークは学習段階でマルチモーダル共同学習を実現しつつ、推論段階では簡潔な骨格情報のみを用いることで、高い効率性を維持します。MMCLフレームワークは主に2つのモジュールから構成されています。まず、特徴アライメントモジュール(FAM)は、動画フレームから豊かなRGB特徴を抽出し、対照学習を用いてそれらをグローバルな骨格特徴とアライメントさせます。次に、特徴精製モジュール(FRM)は、時間情報を含むRGB画像とテキスト指示を用いて、マルチモーダルLLMの優れた汎化能力に基づき、指導的特徴を生成します。これらの指導的テキスト特徴は、分類スコアの精製に利用され、精製されたスコアはソフトラベルと同様に、モデルの堅牢性および汎化性能を向上させます。NTU RGB+D、NTU RGB+D 120、Northwestern-UCLAのベンチマークにおける広範な実験により、本MMCLの有効性が一貫して確認され、既存の骨格ベース行動認識手法を上回る性能を達成しました。さらに、UTD-MHADおよびSYSU-Actionデータセットでの実験により、MMCLがゼロショットおよびドメイン適応型行動認識において優れた汎化性能を発揮することが示されました。本研究のコードは公開されており、以下のURLから入手可能です:https://github.com/liujf69/MMCL-Action。