
要約
私たちは単一の画像から3次元の人間の姿勢とメッシュ頂点を再構築する新しい手法、MEsh TRansfOrmer (METRO) を提案します。この手法では、トランスフォーマーエンコーダーを使用して頂点-頂点および頂点-関節の相互作用を共同でモデル化し、3次元の関節座標とメッシュ頂点を同時に出力します。既存の姿勢や形状パラメータを回帰する技術と比較して、METROはSMPLのようなパラメトリックなメッシュモデルに依存せず、手などの他のオブジェクトへの拡張が容易です。さらに、メッシュトポロジーを緩和し、トランスフォーマーの自己注意機構が任意の2つの頂点間で自由に注意を向けることを許可することで、メッシュ頂点と関節間の非局所的な関係性を学習することが可能になりました。提案されたマスク付き頂点モデリングにより、部分的な隠蔽など困難な状況での処理において当手法はより堅牢かつ効果的です。METROは公開データセットHuman3.6Mおよび3DPWにおける人間メッシュ再構築において新たな最先端結果を生成しています。また、FreiHANDデータセットにおいても既存の最先端手法を超える3次元手再構築の汎用性を示しています。コードと事前学習済みモデルはhttps://github.com/microsoft/MeshTransformer で利用可能です。