8日前
XFormer:高速かつ高精度なモノクローラル3Dボディキャプチャ
Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin, Cheng-Bin Jin

要約
本稿では、単一のモノクロ画像を入力として、コンシューマー用CPU上でリアルタイム性能を実現する新しい人体メッシュおよびモーションキャプチャ手法「XFormer」を提案する。提案するネットワークアーキテクチャは、2次元キーポイントから3次元人体メッシュ頂点を推定するキーポイントブランチと、RGB画像特徴から直接予測を行う画像ブランチの2つのブランチから構成されている。本手法の核となるのは、2次元キーポイント座標と画像の空間特徴の間のアテンションをモデル化することで、これらの2つのブランチ間で情報が双方向に伝達可能な「クロスモーダルトランスフォーマーブロック」である。本アーキテクチャは巧妙に設計されており、2次元/3次元ラベル付き画像、3次元擬似ラベル付き画像、および画像を伴わないモーションキャプチャデータセットなど、多様なデータセット上で学習が可能である。これにより、システムの精度と汎化能力が顕著に向上する。軽量なバックボーン(MobileNetV3)を採用した本手法は、単一CPUコアでも30fps以上という高速な処理を実現しつつ、競争力のある精度を維持している。さらに、HRNetをバックボーンとして用いることで、Human3.6Mおよび3DPWデータセットにおいて、最先端の性能を達成している。