HyperAIHyperAI
vor 2 Monaten

InstaGAN: Instanzbewusste Bild-zu-Bild-Übersetzung

Sangwoo Mo; Minsu Cho; Jinwoo Shin
InstaGAN: Instanzbewusste Bild-zu-Bild-Übersetzung
Abstract

Die unsupervisierte Bild-zu-Bild-Übersetzung hat aufgrund des kürzlich erzielten beeindruckenden Fortschritts mit generativen adversären Netzen (GANs) erhebliche Aufmerksamkeit gefunden. Allerdings scheitern vorherige Methoden oft bei anspruchsvollen Fällen, insbesondere wenn ein Bild mehrere Zielinstanzen enthält und die Übersetzaufgabe erhebliche Veränderungen der Form beinhaltet, z.B. die Übersetzung von Hosen zu Röcken in Modellbildern. Um diese Probleme anzugehen, schlagen wir eine neuartige Methode vor, die als Instanzbewusstes GAN (InstaGAN) bezeichnet wird und Instanzinformationen (z.B. Objektsegmentierungsmasken) einbezieht, um die Mehrinstanz-Transfiguration zu verbessern. Die vorgeschlagene Methode übersetzt sowohl das Bild als auch den entsprechenden Satz von Instanzattributen, während sie die Permutationsinvarianzeigenschaft der Instanzen beibehält. Zu diesem Zweck führen wir einen kontexterhaltenden Verlust ein, der das Netzwerk dazu anregt, außerhalb der Zielinstanzen die Identitätsfunktion zu lernen. Wir schlagen außerdem eine sequentielle Minibatch-Inferenz-/Trainingsmethode vor, die bei begrenztem GPU-Speicher mehrere Instanzen verarbeitet und das Netzwerk verbessert, um für mehrere Instanzen besser generalisieren zu können. Unsere vergleichende Auswertung zeigt die Effektivität der vorgeschlagenen Methode an verschiedenen Bilddatensätzen, insbesondere in den oben genannten anspruchsvollen Fällen. Der Code und die Ergebnisse sind unter https://github.com/sangwoomo/instagan verfügbar.