Command Palette
Search for a command to run...
Yosef Dayani Omer Benishu Sagie Benaim

要約
テキストから3D生成へのアプローチは、事前学習済みの2D拡散事前知識を活用することで著しく進展し、高品質かつ3D整合性の高い出力を実現している。しかし、これらは領域外(OOD: Out-of-Domain)や稀な概念の生成においてはしばしば失敗し、一貫性の欠如や不正確な結果を生じる傾向がある。こうした課題に対応するため、本研究では新たなテキストから3Dへのパイプライン「MV-RAG」を提案する。この手法は、まず大規模な実世界2Dデータベースから関連する2D画像を検索し、その後、その画像を条件としてマルチビュー拡散モデルを駆動することで、一貫性と正確性を兼ね備えたマルチビュー出力を合成する。このような検索条件付きモデルの学習は、構造化されたマルチビューデータと多様な2D画像コレクションを統合する新しいハイブリッド戦略によって実現される。具体的には、視点ごとの再構成を模倣するための拡張された条件付きビューを用いてマルチビューデータ上で学習するとともに、検索された実世界2D画像の集合に対して、特徴的な「保持された視点予測」目的関数を用いて学習を行う。この目的関数では、他の視点から保持された視点を予測させることで、2Dデータから3Dの一貫性を推論する。領域外(OOD)評価を厳密に行うため、本研究では挑戦的なOODプロンプトの新規コレクションを導入する。最先端のテキストから3D、画像から3D、およびパーソナライズ化ベースラインとの比較実験の結果、本手法はOODや稀な概念に対して、3D整合性、写実性、およびテキストの忠実度を顕著に向上させつつ、標準ベンチマークにおいても競争力ある性能を維持することを示した。