11日前
DreamFusion:2D Diffusionを用いたテキストから3Dへの変換
Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall

要約
テキストから画像への合成技術における最近の飛躍的な進展は、数十億もの画像-テキストペアで訓練された拡散モデル(diffusion models)によってもたらされた。このアプローチを3D合成に応用するには、ラベル付きの3Dデータの大規模なデータセットと、3Dデータに対するノイズ除去に効率的なアーキテクチャが必要となるが、現時点ではこれらはいずれも存在しない。本研究では、こうした制約を回避するため、事前学習済みの2Dテキストから画像への拡散モデルを用いてテキストから3Dへの合成を実現する。我々は、確率密度蒸留(probability density distillation)に基づく損失関数を導入し、2D拡散モデルをパラメトリックな画像生成器の最適化における事前分布(prior)として利用可能にする。この損失関数をDeepDreamに類似した手続きに適用することで、ランダムに初期化された3Dモデル(ニューラルレーダンスフィールド、NeRF)を勾配降下法により最適化し、任意の視点からレンダリングした2D画像が低い損失値を達成するようにする。その結果得られるテキストに対応する3Dモデルは、任意の角度から視認可能であり、任意の照明条件下で再ライティング(relit)され、任意の3D環境に合成可能である。本手法は3D学習データを一切必要とせず、画像拡散モデルの構造にも変更を加える必要がない。これにより、事前学習済みの画像拡散モデルが強力な事前知識として機能することの有効性が示された。