Alignされた新規視点画像と幾何学合成をクロスモーダル注意インストレーションを用いて実現
Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
公開日: 6/16/2025

要約
本研究では、ワーピングとインペイントの手法を用いて、アライメントされた新視点の画像と幾何学生成を行う拡散ベースのフレームワークを提案します。従来の方法とは異なり、当該手法は高密度なポーズ付き画像やドメイン内視点に限定されるポーズ埋め込み型生成モデルを必要とせず、既存の幾何学予測器を利用して参照画像から部分的な幾何学情報を予測し、新視点合成を画像と幾何学両方に対するインペイントタスクとして定式化します。生成された画像と幾何学情報との間での正確なアライメントを確保するために、クロスモーダル注意蒸留(cross-modal attention distillation)という手法を提案します。これにより、画像拡散ブランチからの注意マップが訓練および推論時に並列する幾何学拡散ブランチに注入されます。このマルチタスクアプローチは相乗効果を達成し、幾何学的に堅牢な画像合成だけでなく明確な幾何学予測も可能にします。さらに、近接性に基づくメッシュ条件付け(proximity-based mesh conditioning)を導入して深度と法線の手がかりを取り入れ、点群と誤って予測された幾何学情報との間で補間を行い、生成過程への影響を抑制します。実証的に当該手法は未見のシーンにおいても高忠実度の外挿視点合成を達成し、補間設定下での競合他社に匹敵する再構築品質を提供するとともに、包括的な3D完成のために幾何学的にアライメントされた彩色点群を生成します。プロジェクトページは以下のURLでご覧いただけます: https://cvlab-kaist.github.io/MoAI.