HyperAIHyperAI
vor 2 Monaten

Kontextbewusste Layout-zu-Bild-Generierung mit erweitertem Objekt-Erscheinungsbild

He, Sen ; Liao, Wentong ; Yang, Michael Ying ; Yang, Yongxin ; Song, Yi-Zhe ; Rosenhahn, Bodo ; Xiang, Tao
Kontextbewusste Layout-zu-Bild-Generierung mit erweitertem Objekt-Erscheinungsbild
Abstract

Ein Layout-zu-Bild (L2I) Generierungsmodell zielt darauf ab, ein komplexes Bild zu erzeugen, das mehrere Objekte (Things) auf natürlicher Hintergrund (Stuff) enthält, basierend auf einem gegebenen Layout. Aufbauend auf den jüngsten Fortschritten im Bereich der generativen adversären Netze (GANs) haben bestehende L2I-Modelle große Fortschritte gemacht. Eine genaue Untersuchung ihrer generierten Bilder zeigt jedoch zwei wesentliche Einschränkungen: (1) die Beziehungen zwischen Objekt und Objekt sowie zwischen Objekt und Hintergrund sind oft gestört und (2) das Erscheinungsbild jedes Objekts ist in der Regel verzerrt und fehlt an den wesentlichen definierenden Merkmalen, die mit der jeweiligen Objektklasse verbunden sind. Wir argumentieren, dass dies durch das Fehlen kontextbewusster Objekt- und Hintergrundmerkmalskodierung in ihren Generatoren und ortssensitiver Erscheinungsrepräsentation in ihren Diskriminatoren verursacht wird. Um diese Einschränkungen zu beheben, werden in dieser Arbeit zwei neue Module vorgeschlagen. Erstens wird ein kontextbewusstes MerkmalsTransformationmodul im Generator eingeführt, um sicherzustellen, dass die generierte Merkmalskodierung von Objekten oder Hintergrund bewusst ist über andere gleichzeitig vorhandene Objekte/Hintergründe in der Szene. Zweitens füttern wir dem Diskriminator nicht ortsunabhängige Bildmerkmale, sondern verwenden die Gram-Matrix, die aus den Feature Maps der generierten Objektbilder berechnet wird, um ortssensible Informationen zu erhalten. Dies führt zu einer erheblich verbesserten Darstellung des Objektauftritts. Ausführliche Experimente zeigen, dass das vorgeschlagene Verfahren den Stand der Technik auf den Benchmarks COCO-Thing-Stuff und Visual Genome erreicht.

Kontextbewusste Layout-zu-Bild-Generierung mit erweitertem Objekt-Erscheinungsbild | Neueste Forschungsarbeiten | HyperAI