Kanonische Repräsentationen für die Generierung von Szenengraphen zu Bildern lernen
Die Erstellung realistischer Bilder komplexer visueller Szenen wird herausfordernd, wenn man die Struktur der generierten Bilder kontrollieren möchte. Frühere Ansätze zeigten, dass Szenen mit wenigen Entitäten mithilfe von Szengraphen gesteuert werden können, jedoch geraten diese Ansätze ins Stocken, wenn die Komplexität des Graphen (Anzahl der Objekte und Kanten) zunimmt. In dieser Arbeit zeigen wir, dass eine Einschränkung der aktuellen Methoden ihre Unfähigkeit ist, semantische Äquivalenz in Graphen zu erfassen. Wir stellen ein neues Modell vor, das diese Probleme durch das Lernen kanonischer Graphrepräsentationen aus den Daten löst, was zu einer verbesserten Bildgenerierung für komplexe visuelle Szenen führt. Unser Modell zeigt eine verbesserte empirische Leistung bei großen Szengraphen, Robustheit gegenüber Rauschen im Eingabegraphen und Verallgemeinerungsfähigkeit auf semantisch äquivalenten Graphen. Schließlich demonstrieren wir die verbesserte Leistung des Modells anhand dreier verschiedener Benchmarks: Visual Genome, COCO und CLEVR.