17日前

変換器を用いた3D人体メッシュ回復のための分離されたモダリティのクロスアテンション

Junhyeong Cho, Kim Youwang, Tae-Hyun Oh
変換器を用いた3D人体メッシュ回復のための分離されたモダリティのクロスアテンション
要約

最近、Transformerエンコーダー構造は単一画像からの3次元人間メッシュ再構成において、最先端の性能を達成しているが、その一方で膨大なパラメータ数と高コストな計算を必要とするという課題がある。大規模なメモリオーバーヘッドと遅い推論速度のため、実用的なデプロイには困難が伴う。本論文では、単一画像から3次元人間メッシュを再構成するための新しいTransformerエンコーダー・デコーダー構造、FastMETROを提案する。我々は、エンコーダーに基づくTransformerにおける性能のボトルネックが、入力トークン間の高複雑性な相互作用を引き起こすトークン設計に起因することを特定した。この問題を、エンコーダー・デコーダー構造を用いて解消することで、モデルのパラメータ数を大幅に削減し、推論時間を短縮することが可能となった。さらに、アテンションマスキングおよびメッシュのアップサンプリング操作を通じて、人間の体の形状的関係に関する事前知識を導入することで、収束速度が向上し、精度も向上した。FastMETROは、精度と効率のパレート最適フロントを改善し、Human3.6Mおよび3DPWデータセットにおいて、従来の画像ベース手法を明確に上回った。また、FreiHANDデータセットを用いた実験により、本手法の汎用性も検証した。

変換器を用いた3D人体メッシュ回復のための分離されたモダリティのクロスアテンション | 最新論文 | HyperAI超神経