8ヶ月前

概要

ビデオトランスフォーマーは、人間の動作認識における事実上の標準となりましたが、RGBモダリティへの排他的依存は依然として特定の分野での採用を制限しています。そのような分野の一つが日常生活活動（ADL）であり、RGBだけでは視覚的に類似した動作や複数の視点から観察された動作を区別するのに十分ではありません。ビデオトランスフォーマーをADLに適用するために、我々はRGBに人間の姿勢情報（微細な動きと複数の視点に対する感度が高いことで知られています）を追加することが必須であるという仮説を立てました。これに基づき、初めての姿勢誘導型ビデオトランスフォーマー：PI-ViT（または $\pi$ -ViT）を提案します。これは、ビデオトランスフォーマーが学習するRGB表現に2Dおよび3Dの姿勢情報を追加する新しい手法です。 $\pi$ -ViTの主要な要素は、2Dスケルトン誘導モジュールと3Dスケルトン誘導モジュールという2つのプラグインモジュールです。これらのモジュールは、RGB表現に2Dおよび3Dの姿勢情報を誘導することを担当しています。モジュールはポーズに応じた補助タスクを行うことで機能し、この設計選択により $\pi$ -ViTは推論時にモジュールを削除することができます。特に注目に値するのは、 $\pi$ -ViTが現実世界と大規模なRGB-Dデータセットを含む3つの主要なADLデータセットで最先端の性能を達成しており、推論時には姿勢情報や追加的な計算負荷を求めないことです。