2ヶ月前
LayoutDiffusion: レイアウトから画像生成のための制御可能な拡散モデル
Zheng, Guangcong ; Zhou, Xianpan ; Li, Xuewei ; Qi, Zhongang ; Shan, Ying ; Li, Xi

要約
最近、拡散モデルは画像合成において大きな成功を収めています。しかし、複数のオブジェクトが含まれる複雑なシーンを持つ画像のレイアウトから画像を生成する際には、全体的なレイアウトマップと各詳細オブジェクトに対する強い制御を行うことが依然として困難な課題となっています。本論文では、従来の研究よりも高い生成品質とより大きな制御性を達成できる拡散モデル「LayoutDiffusion」を提案します。画像とレイアウトの難易度の高い多モーダル融合を克服するために、領域情報を含む構造的な画像パッチを作成し、このパッチされた画像を特別なレイアウトに変換して通常のレイアウトと統一された形式で融合することを提案します。さらに、複数のオブジェクト間の関係性をモデル化し、オブジェクト認識かつ位置感度を持つように設計されたレイアウト融合モジュール(LFM)およびオブジェクト認識クロスアテンション(OaCA)を提案します。これにより空間的に関連する情報に対して正確に制御することが可能となります。広範な実験結果から、私たちのLayoutDiffusionはCOCO-stuffデータセットでFIDおよびCASにおいて相対的に46.35%、26.70%改善し、VGデータセットでは44.29%、41.82%改善していることが示されました。コードはhttps://github.com/ZGCTroy/LayoutDiffusionで公開されています。