
本研究は、単一の2D画像から人体の衣類の幾何形状およびテクスチャを復元する自己教師付き3D衣類再構成手法の開発を目的としている。既存の手法と比較して、以下の3つの主要な課題が依然として残っていることを観察した:(1)衣類の3D真値メッシュは、アノテーションの困難さと時間コストのため、通常は入手困難である;(2)従来のテンプレートベース手法は、ハンドバッグやドレスなど、ファッション画像に頻出する非剛体物体のモデリングに限定される;(3)カメラ位置と形状の間にある固有の不確実性がモデルの学習を妨げており、例えば遠距離カメラにおける大きな形状と近距離カメラにおける小さな形状のジレンマが生じる。これらの課題に対処するため、本研究では3Dアノテーションを必要とせずに、2D画像から非剛体物体を適応的に3D再構成する因果関係を意識した自己教師付き学習手法を提案する。特に、カメラ位置、形状、テクスチャ、照明という4つの潜在変数間の固有の不確実性を解消するため、解釈可能な構造的因果マップ(Structural Causal Map: SCM)を導入し、モデル構造を構築した。提案手法は因果マップの精神に則って設計されており、カメラ推定および形状予測の段階で事前知識としてのテンプレートを明示的に考慮している。最適化プロセスにおいて、因果介入ツールとして2つの期待最大化(EM)ループをアルゴリズムに深く組み込み、(1)4つのエンコーダーの分離(disentanglement)を実現し、(2)事前テンプレートの有効活用を促進する。2Dファッションベンチマーク(ATRおよびMarket-HQ)における広範な実験結果から、本手法が高忠実度の3D再構成を達成できることを示した。さらに、細粒度の鳥類データセット(CUB)を用いた実験により、本手法のスケーラビリティも確認された。コードは以下のURLから公開されている:https://github.com/layumi/3D-Magic-Mirror。