Erzeugung von mehreren Objekten an räumlich getrennten Positionen

Kürzliche Verbesserungen bei Generativen Wettbewerbsnetzen (Generative Adversarial Networks, GANs) ermöglichen es, auf Basis natürlicher Sprachbeschreibungen wie Bildunterschriften realistische Bilder in hoher Auflösung zu generieren. Darüber hinaus erlauben bedingte GANs uns, den Prozess der Bildgenerierung durch Labels oder sogar natürliche Sprachbeschreibungen zu steuern. Dennoch ist eine feingranulare Steuerung des Bildlayouts, d.h. die Platzierung spezifischer Objekte innerhalb eines Bildes, noch immer schwierig zu erreichen. Dies gilt insbesondere für Bilder, die mehrere unterschiedliche Objekte an verschiedenen räumlichen Positionen enthalten sollen. Wir stellen einen neuen Ansatz vor, der es ermöglicht, die Position beliebig vieler Objekte innerhalb eines Bildes durch Hinzufügen eines Objektpfades sowohl zum Generator als auch zum Diskriminator zu steuern. Unser Ansatz benötigt kein detailliertes semantisches Layout, sondern nur Begrenzungsrahmen und die entsprechenden Labels der gewünschten Objekte. Der Objektpfad konzentriert sich ausschließlich auf die einzelnen Objekte und wird iterativ an den von den Begrenzungsrahmen angegebenen Positionen angewendet. Der globale Pfad fokussiert sich auf den Bildhintergrund und das allgemeine Bildlayout. Wir führen Experimente mit dem Multi-MNIST-, dem CLEVR- und dem komplexeren MS-COCO-Datensatz durch. Unsere Experimente zeigen, dass wir durch den Einsatz des Objektpfads die Positionen von Objekten innerhalb von Bildern steuern können und komplexe Szenen mit mehreren Objekten an verschiedenen Positionen modellieren können. Zudem zeigen wir, dass der Objektpfad sich auf die einzelnen Objekte konzentriert und relevante Merkmale für diese lernt, während der globale Pfad sich auf globale Bildcharakteristika und den Bildhintergrund fokussiert.