HyperAIHyperAI

Command Palette

Search for a command to run...

Alignされた新規視点画像と幾何学合成をクロスモーダル注意インストレーションを用いて実現

Min-Seop Kwak Junho Kim Sangdoo Yun Dongyoon Han Taekyoung Kim Seungryong Kim Jin-Hwa Kim

概要

本研究では、ワーピングとインペイントの手法を用いて、アライメントされた新視点の画像と幾何学生成を行う拡散ベースのフレームワークを提案します。従来の方法とは異なり、当該手法は高密度なポーズ付き画像やドメイン内視点に限定されるポーズ埋め込み型生成モデルを必要とせず、既存の幾何学予測器を利用して参照画像から部分的な幾何学情報を予測し、新視点合成を画像と幾何学両方に対するインペイントタスクとして定式化します。生成された画像と幾何学情報との間での正確なアライメントを確保するために、クロスモーダル注意蒸留(cross-modal attention distillation)という手法を提案します。これにより、画像拡散ブランチからの注意マップが訓練および推論時に並列する幾何学拡散ブランチに注入されます。このマルチタスクアプローチは相乗効果を達成し、幾何学的に堅牢な画像合成だけでなく明確な幾何学予測も可能にします。さらに、近接性に基づくメッシュ条件付け(proximity-based mesh conditioning)を導入して深度と法線の手がかりを取り入れ、点群と誤って予測された幾何学情報との間で補間を行い、生成過程への影響を抑制します。実証的に当該手法は未見のシーンにおいても高忠実度の外挿視点合成を達成し、補間設定下での競合他社に匹敵する再構築品質を提供するとともに、包括的な3D完成のために幾何学的にアライメントされた彩色点群を生成します。プロジェクトページは以下のURLでご覧いただけます: https://cvlab-kaist.github.io/MoAI.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています