
単一画像から高品質な3Dモデルを生成し、実世界のアプリケーションに活用することは重要です。最近の進歩にもかかわらず、複雑なポーズやゆったりとした服を着た人物の3D再構成や、見えない領域のテクスチャ予測は依然として大きな課題となっています。従来の手法の主要な制限は、2Dから3Dへの移行とテクスチャ予測において十分な事前ガイドが不足していることです。これに対応して、私たちはSIFU(Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction)という新しいアプローチを提案します。SIFUは、サイドビュー分離トランスフォーマーと3D一貫性テクスチャ精製パイプラインを組み合わせています。トランスフォーマー内ではクロスアテンションメカニズムを使用し、SMPL-X法線をクエリとして利用することで、2D特徴量を3Dにマッピングする過程でサイドビュー特徴量を効果的に分離します。この方法は3Dモデルの精度向上だけでなく、特にSMPL-X推定値が完全でない場合でも堅牢性を向上させます。私たちのテクスチャ精製プロセスでは、テキストから画像への拡散ベースの事前知識を利用して、見えない視点に対して現実的かつ一貫性のあるテクスチャを生成します。多数の実験を通じて、SIFUは幾何学的な再構成とテクスチャ再構成において既存の最先端手法(SOTA)を超えており、特に複雑な状況下での堅牢性が向上しており、Chamfer距離とP2S測定において画期的な結果を達成しています。当アプローチは3D印刷やシーン構築などの実用的なアプリケーションにも適用可能であり、その広範な実世界での有用性を示しています。プロジェクトページ: https://river-zhang.github.io/SIFU-projectpage/