
要約
自己教師付き事前学習(self-supervised pretraining)の枠組みは、骨格に基づく行動認識において大きな成功を収めている。しかし、これらの手法は運動部分と静的部分を同等に扱っており、各部位に対して適応的な設計を欠いており、これが行動認識の精度に悪影響を及ぼしている。両者に対して適応的な行動モデリングを実現するため、本研究では「アクションレット依存型対照学習法(Actionlet-Dependent Contrastive Learning, ActCLR)」を提案する。アクションレットとは、人間の骨格において識別的な部分を指すものであり、運動領域を効果的に分解することで、より優れた行動モデリングを可能にする。具体的には、運動を含まない静的アノテーション(anchor)と対照させることで、教師なしの方法で骨格データの運動領域を抽出し、これをアクションレットとして定義する。その後、このアクションレットを中心として、運動に適応したデータ変換手法を構築する。アクションレット領域とそれ以外の領域に対して、それぞれ異なるデータ変換を適用することで、多様性を高めつつ、各領域の固有の特徴を維持する。さらに、運動領域と静的領域の間で特徴表現を区別的に構築するため、意味的意識型特徴プーリング手法を提案する。NTU RGB+DおよびPKUMMDにおける広範な実験の結果、提案手法は顕著な行動認識性能を達成した。可視化および定量的実験により、本手法の有効性がさらに裏付けられた。本研究のプロジェクトウェブサイトは以下のURLで公開されている:https://langlandslin.github.io/projects/ActCLR/