Diagnostische Benchmark und iterative Inpainting für layoutgesteuerte Bildgenerierung

Raumliche Kontrolle ist eine Kernfähigkeit bei der erzeugbaren Bildsteuerung.Fortschritte im layoutgesteuerten Bildgenerieren haben vielversprechende Ergebnisse aufin-Verteilungsdatensätzen (ID) mit ähnlichen räumlichen Konfigurationen gezeigt. Es ist jedoch unklar, wie diese Modelle sich bei out-of-Verteilungsbeispielen (OOD) mit willkürlichen, bisher unbekannten Layouts verhalten. In dieser Arbeit schlagen wir LayoutBench vor,ein diagnostisches Benchmarking-Tool für layoutgesteuerte Bildgenerierung, das vier Kategorien räumlicher Kontrollfähigkeiten untersucht: Anzahl, Position, Größe und Form. Wir evaluieren zwei aktuelle repräsentative Methoden der layoutgesteuerten Bildgenerierung und beobachten, dass die gute Kontrolle von ID-Layouts möglicherweise nicht gut auf willkürliche Layouts in der Praxis übertragbar ist (z.B. Objekte am Rand). Als Nächstes stellen wir IterInpaint vor,eine neue Baseline-Methode, die Vordergrund- und Hintergrundbereiche schrittweise durch Inpainting generiert und dabei eine stärkere Übertragbarkeit auf OOD-Layouts in LayoutBench zeigt als bestehende Modelle. Wir führen quantitative und qualitative Bewertungen sowie detaillierte Analysen der vier LayoutBench-Fähigkeiten durch, um die Schwachstellen bestehender Modelle zu identifizieren. Zudem präsentieren wir umfassende Abstraktionsstudien zu IterInpaint, einschließlich des Trainingsaufgabenverhältnisses, Crop&Paste vs. Repaint und der Generierungsreihenfolge. Schließlich evaluieren wir die zero-shot-Leistung verschiedener vortrainierter layoutgesteuerter Bildgenerierungsmodelle auf LayoutBench-COCO,unserem neuen Benchmark für OOD-Layouts mit realen Objekten, wobei unser IterInpaint in allen vier Teildatensätzen konsistent die besten Baselines übertreffen kann. Projektwebsite:https://layoutbench.github.io