LayoutDiffusion: Steuerbares Diffusionsmodell für die Layout-zu-Bild-Generierung

Kürzlich haben Diffusionsmodelle bei der Bildsynthese große Erfolge erzielt.Bei der Generierung von Bildern aus Layouts, bei denen ein Bild oft eine komplexe Szene mit mehreren Objekten aufweist, stellt sich jedoch die Herausforderung, sowohl über die globale Layoutkarte als auch über jedes detaillierte Objekt eine starke Kontrolle zu gewinnen. In dieser Arbeit schlagen wir ein Diffusionsmodell namens LayoutDiffusion vor, das eine höhere Generierungsqualität und größere Steuerbarkeit als frühere Arbeiten erreichen kann.Um die schwierige multimodale Fusion von Bild und Layout zu bewältigen, schlagen wir vor, ein strukturelles Bildpatch mit Regioneninformationen zu konstruieren und das gepatchte Bild in ein spezielles Layout zu transformieren, um es in einer vereinheitlichten Form mit dem normalen Layout zu fusionieren. Darüber hinaus werden das Layout-Fusion-Modul (LFM) und die objektbewusste Kreuzaufmerksamkeit (OaCA) vorgeschlagen, um die Beziehungen zwischen mehreren Objekten zu modellieren. Diese Module sind objektbewusst und positionsabhängig gestaltet, was eine präzise Steuerung der räumlich relevanten Informationen ermöglicht. Ausführliche Experimente zeigen, dass unser LayoutDiffusion die bisher besten Methoden (SOTA) in Bezug auf FID und CAS um relativ 46,35 % und 26,70 % auf COCO-Stuff sowie um 44,29 % und 41,82 % auf VG übertrifft. Der Quellcode ist unter https://github.com/ZGCTroy/LayoutDiffusion verfügbar.