
要約
シーン合成は、いくつかの産業応用を持つ困難な問題である。近年、人間の動作、部屋のレイアウト、空間グラフなどを入力としてシーンを合成する研究が活発に行われている。しかし、テキストプロンプトを含む複数のモダリティを統合してこの問題に取り組む研究はまだ少ない。本論文では、テキストプロンプト、人間の動作、既存のオブジェクトを統合してシーン合成を行う、言語駆動型シーン合成という新たなタスクを提案する。他の単一条件による合成タスクとは異なり、本問題は複数の条件を扱う必要があり、それらを統一的な空間に処理・符号化する戦略が求められる。この課題に対処するため、従来の拡散モデル研究で用いられる暗黙的な統合アプローチとは異なり、元のデータ分布に対するガイドポイントを明示的に予測するマルチ条件拡散モデルを提案する。理論的にも本アプローチの有効性を示した。豊富な実験結果により、本手法が最先端のベンチマークを上回り、自然なシーン編集の応用を可能にすることを実証した。ソースコードおよびデータセットは、https://lang-scene-synth.github.io/ で公開されている。