4ヶ月前
マスク付き動作予測器は強力な3次元行動表現学習者である
Mao, Yunyao ; Deng, Jiajun ; Zhou, Wengang ; Fang, Yao ; Ouyang, Wanli ; Li, Houqiang

要約
3次元ヒューマンアクション認識において、限られた教師ありデータが強力なネットワーク(例えばトランスフォーマー)のモデリング能力を十分に引き出すことを困難にしています。その結果、研究者たちは効果的な自己監督事前学習戦略の開発に積極的に取り組んでいます。本研究では、一般的なプレテキストタスクであるマスクされた自己部品再構成ではなく、明示的なコンテクスチュアルモーションモデリングが3次元アクション認識における効果的な特徴表現学習の成功の鍵であることを示します。形式的には、マスクド・モーション・予測(Masked Motion Prediction, MAMP)フレームワークを提案します。具体的には、提案するMAMPはマスクされた時空間骨格シーケンスを受け取り、対応するマスクされたヒューマンジョイントの時間的運動を予測します。骨格シーケンスの高い時間的冗長性を考慮し、MAMPでは運動情報が経験的な意味的豊かさの事前知識として機能し、マスキングプロセスをガイドすることで、意味的に豊かな時間領域へのより良い注意を促進します。NTU-60、NTU-120、PKU-MMDデータセットでの広範な実験により、提案するMAMP事前学習が採用したシンプルなトランスフォーマーの性能を大幅に向上させることを確認しました。特別な調整や工夫なしで最先端の結果を達成しています。MAMPのソースコードは https://github.com/maoyunyao/MAMP から入手可能です。