
視覚的テンポ(Visual tempo)は、動的特性および時間的変化を特徴づけるものであり、動作の記述に有効である。近年のアプローチでは、スケルトンシーケンス上で視覚的テンポを直接予測する手法が提案されているが、これには特徴表現が不十分になる問題が生じる可能性がある。本論文では、相対的視覚的テンポ(relative visual tempo)が人間の直感に合致しており、より効果的な教師信号を提供できる点に着目した。この洞察に基づき、スケルトン行動表現を目的とした新しい「相対的視覚的テンポ対比学習フレームワーク」(Relative Visual Tempo Contrastive Learning for skeleton action Representation; RVTCLR)を提案する。具体的には、動画内クリップ内の運動情報を探索するための「相対的視覚的テンポ学習」(RVTL)タスクと、外見情報も同時に学習するための「外見一貫性」(Appearance-Consistency; AC)タスクを設計し、より表現力豊かな空間時間特徴を獲得する。さらに、スケルトンシーケンスデータはRGBデータに比べて大幅に疎であるため、ネットワークが便宜的な学習経路(shortcuts)を学習し、スケルトンのスケールなど低レベルな情報に過剰適合(overfit)する傾向がある。高次の意味的特徴を学習するため、新たに「分布一貫性」(Distribution-Consistency; DC)ブランチを設計した。このDCブランチは、スケルトン特有のデータ拡張(Skeleton-specific Data Augmentation; SDA)、細粒度スケルトン符号化モジュール(Fine-grained Skeleton Encoding Module; FSEM)、および分布に敏感な多様性損失(Distribution-aware Diversity; DD)損失の3つの構成要素からなる。本手法全体(DCを含むRVTCLR)をRVTCLR+と呼ぶ。NTU RGB+D 60およびNTU RGB+D 120データセットにおける広範な実験により、RVTCLR+が最先端の手法と比較して競争力のある性能を達成することが示された。コードは以下のURLから公開されている:https://github.com/Zhuysheng/RVTCLR。