15日前

MIDI: 1枚の画像から3Dシーン生成を実現するマルチインスタンス拡散モデル

{Lu Sheng, Yan-Pei Cao, Xihui Liu, Ding Liang, Zi-Xin Zou, Yangguang Li, Yunhan Yang, Xingqiao An, Yuan-Chen Guo, Zehuan Huang}
MIDI: 1枚の画像から3Dシーン生成を実現するマルチインスタンス拡散モデル
要約

本稿では、単一の画像から構成的な3Dシーンを生成するための新規なパラダイム「MIDI」を提案する。従来の再構成やリトリーブに依存する手法、あるいは近年の多段階でオブジェクト単位で生成を行うアプローチとは異なり、MIDIは事前学習済みの画像から3Dオブジェクトを生成するモデルを、複数インスタンスに対応する拡散モデルへと拡張することで、正確な空間関係を保ちつつ複数の3Dインスタンスを同時に生成可能にする。MIDIの核となるのは、生成プロセス内においてオブジェクト間の相互作用と空間的一貫性を効果的に捉える新たな「複数インスタンスアテンション機構」である。この機構により、複雑な複数ステップの処理を必要とせずに、生成過程そのもので空間的整合性を直接モデリングすることが可能となる。本手法は部分的なオブジェクト画像とグローバルなシーンコンテキストを入力とし、3D生成の過程でオブジェクトの完成を直接モデリングする。学習段階では、限られたシーンレベルのデータを用いて3Dインスタンス間の相互作用を効果的に監督しつつ、単一オブジェクトデータを正則化に活用することで、事前学習された汎化能力を維持する。MIDIは、合成データ、実世界のシーンデータ、およびテキストから画像を生成する拡散モデルによって作成されたスタイライズドシーン画像を用いた評価において、画像からシーンへの生成というタスクにおいて最先端の性能を示した。

MIDI: 1枚の画像から3Dシーン生成を実現するマルチインスタンス拡散モデル | 最新論文 | HyperAI超神経