2ヶ月前

SMPLer-X: 表現力のある人間の姿勢と形状推定のスケーリングアップ

Cai, Zhongang ; Yin, Wanqi ; Zeng, Ailing ; Wei, Chen ; Sun, Qingping ; Wang, Yanjun ; Pang, Hui En ; Mei, Haiyi ; Zhang, Mingyuan ; Zhang, Lei ; Loy, Chen Change ; Yang, Lei ; Liu, Ziwei
SMPLer-X: 表現力のある人間の姿勢と形状推定のスケーリングアップ
要約

表現的な人間の姿勢と形状推定(EHPS)は、身体、手、顔のモーションキャプチャを統合し、多くの応用分野を持つ技術です。現状では、最新の手法でもまだ限定的な訓練データセットに大きく依存しています。本研究では、最大ViT-Hugeをバックボーンとして使用し、多様なデータソースから最大450万件のインスタンスで訓練することで、EHPSの拡大を目指し、初めての汎用基盤モデル(SMPLer-Xと命名)を開発しました。大量のデータと大規模なモデルにより、SMPLer-Xは多様なテストベンチマークで優れた性能を示し、未見の環境への優れた転移能力も有しています。1) データスケーリングに関しては、32のEHPSデータセットを対象とした系統的な調査を行い、単一のデータセットで訓練されたモデルが処理できない幅広いシナリオを含めました。特に重要なのは、広範なベンチマークプロセスから得られた洞察に基づいて訓練スキームを最適化し、EHPS能力に大幅な向上をもたらすデータセットを選択したことです。2) モデルスケーリングに関しては、ビジョントランスフォーマーを利用し、EHPSにおけるモデルサイズのスケーリング法則を研究しました。さらに、ファインチューニング戦略によりSMPLer-Xを専門モデルに変換し、さらなる性能向上を実現しています。特に注目に値するのは、当社の基盤モデルSMPLer-XがAGORA(107.2 mm NMVE)、UBody(57.4 mm PVE)、EgoBody(63.6 mm PVE)、およびEHF(ファインチューニングなしで62.3 mm PVE)など7つのベンチマークで一貫して最先端の結果を達成していることです。ホームページ: https://caizhongang.github.io/projects/SMPLer-X/

SMPLer-X: 表現力のある人間の姿勢と形状推定のスケーリングアップ | 最新論文 | HyperAI超神経