3ヶ月前
THUNDR:マーカーを用いたTransformerベースの3D HUmaN再構成
Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu

要約
本稿では、単眼RGB画像を入力として人物の3次元ポーズおよび形状を再構成するための、Transformerベースの深層ニューラルネットワーク手法THUNDRを提案する。本手法の鍵となるのは、中間的な3次元マーカー表現の導入であり、モデルフリー出力アーキテクチャの予測力と、GHUM(最近導入された表現力豊かな全身統計的3次元人体モデル)のような統計的人体表面モデルの正則化特性および人間の解剖学的形状を保持する性質を統合することにある。GHUMはエンドツーエンドで学習されたモデルであり、人体の形状と姿勢の多様な変動を高精度に表現可能である。本研究で開発した新しいTransformerベースの予測パイプラインは、タスクに関連する画像領域に注目できるほか、自己教師付き学習(self-supervised)の設定にも対応可能であり、得られた解が人間の解剖学的特性と整合していることを保証する。本手法は、完全教師ありおよび自己教師ありの両設定において、Human3.6Mおよび3DPWデータセットで最先端の性能を達成した。特に、野外で収集された困難な姿勢(challenging poses)に対しても、非常に高い3次元再構成精度を示した。