SCAM! Menschen zwischen Bildern übertragen mit semantischer Kreuzaufmerksamkeitsmodulation

Ein umfangreiches jüngstes Forschungsgebiet richtet sich auf die semantisch bedingte Bildgenerierung. Die meisten dieser Methoden konzentrieren sich auf die engere Aufgabe der Pose-Übertragung und ignorieren die anspruchsvollere Aufgabe der Subjekt-Übertragung, die nicht nur die Pose, sondern auch das Erscheinungsbild und den Hintergrund überträgt. In dieser Arbeit stellen wir SCAM (Semantic Cross Attention Modulation) vor, ein System, das reichhaltige und vielfältige Informationen in jeder semantischen Region des Bildes (einschließlich Vorder- und Hintergrund) kodiert, wodurch eine präzise Generierung mit Schwerpunkt auf feine Details erreicht wird. Dies wird durch den Semantic Attention Transformer Encoder ermöglicht, der für jede semantische Region mehrere latente Vektoren extrahiert, und den entsprechenden Generator, der diese mehreren Latenten durch Verwendung von semantischer Kreuz-Aufmerksamkeitsmodulation nutzt. Das System wird ausschließlich unter Verwendung einer Rekonstruktionsaufgabe trainiert, während die Subjekt-Übertragung zur Testzeit durchgeführt wird. Unsere Analyse zeigt, dass unsere vorgeschlagene Architektur erfolgreich bei der Kodierung der Vielfalt des Erscheinungsbilds in jeder semantischen Region ist. Ausführliche Experimente anhand der Datasets iDesigner und CelebAMask-HD zeigen, dass SCAM SEAN und SPADE übertrifft; darüber hinaus legt es einen neuen Stand der Technik in der Subjekt-Übertragung fest.