XingGAN für die Personbildgenerierung

Wir schlagen einen neuartigen generativen adversarialen Netzwerkansatz (XingGAN oder CrossingGAN) für Aufgaben der Personenbildgenerierung vor, d. h. die Umwandlung der Pose einer gegebenen Person in eine gewünschte Pose. Der vorgeschlagene Xing-Generator besteht aus zwei Generierungsbranchen, die jeweils die Erscheinungs- und die Forminformation der Person modellieren. Zudem führen wir zwei neuartige Blöcke ein, die die Übertragung und Aktualisierung der Form- und Erscheinungs-Embeddings auf kreuzende Weise effizient ermöglichen und sich gegenseitig verbessern, was in bisherigen GAN-basierten Bildgenerierungsansätzen noch nicht berücksichtigt wurde. Umfassende Experimente auf zwei anspruchsvollen Datensätzen, nämlich Market-1501 und DeepFashion, zeigen, dass der vorgeschlagene XingGAN die bisher beste Leistung sowohl hinsichtlich objektiver quantitativer Metriken als auch subjektiver visueller Realität erreicht. Der Quellcode und die trainierten Modelle sind unter https://github.com/Ha0Tang/XingGAN verfügbar.