11日前

形状ガイド付き3D形状およびテクスチャ生成のためのLatent-NeRF

Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, Daniel Cohen-Or
形状ガイド付き3D形状およびテクスチャ生成のためのLatent-NeRF
要約

近年、テキストガイド付き画像生成は急速な進展を遂げており、これによりテキストガイド付き形状生成分野にも大きなブレイクスルーがもたらされた。最近、スコア蒸留(score distillation)を用いることで、NeRFモデルをテキストでガイドし、3Dオブジェクトを生成することが可能であることが示された。本研究では、公開されており計算効率の高い潜在拡散モデル(Latent Diffusion Models)にスコア蒸留を適応する。これらのモデルは、事前に学習されたオートエンコーダのコンパクトな潜在空間内で、拡散プロセス全体を実行する。一方、NeRFは画像空間で動作するため、潜在スコア蒸留でNeRFを直接ガイドする単純なアプローチでは、各ガイドステップで潜在空間へのエンコードが必要となる。これに対して、本研究ではNeRFを潜在空間に移行するアプローチを提案し、その結果として「潜在NeRF(Latent-NeRF)」を構築した。潜在NeRFの分析を通じて、テキストから3Dを生成するモデルが印象的な結果を出す一方で、本質的に制約がなく、特定の3D構造を正確にガイドまたは強制する能力に欠ける可能性があることを明らかにした。3D生成の支援と方向性の確保を目的として、本研究では、所望のオブジェクトの粗い構造を定義する抽象的な幾何形状である「スケッチ形状(Sketch-Shape)」を用いて潜在NeRFをガイドする手法を提案する。さらに、このような制約を潜在NeRFに直接統合する方法を提示した。テキストと形状の両方のガイドを組み合わせることで、生成プロセスに対するより高い制御性が実現可能となる。また、潜在スコア蒸留が3Dメッシュ上で直接適用可能であることも示した。これにより、与えられた幾何形状に高品質なテクスチャを生成することが可能となる。実験により、本研究で提案するさまざまなガイド方式の有効性および潜在レンダリングの効率性が検証された。実装コードは、https://github.com/eladrich/latent-nerf にて公開されている。