Multimodale bedingte Bildsynthese mit Product-of-Experts GANs

Bestehende Frameworks für bedingte Bildsynthese generieren Bilder basierend auf Benutzereingaben in einer einzigen Modalität, beispielsweise Text, Segmentierung, Skizze oder Stilreferenz. Sie können meist keine multimodalen Benutzereingaben nutzen, falls solche verfügbar sind, was ihre Praktikabilität einschränkt. Um diese Beschränkung zu überwinden, schlagen wir den Product-of-Experts Generative Adversarial Networks (PoE-GAN)-Ansatz vor, der Bilder bedingt auf mehrere Eingabemodalitäten oder beliebige Teilmengen davon – sogar auf die leere Menge – synthetisieren kann. PoE-GAN besteht aus einem Product-of-Experts-Generator und einem multimodalen, multiskaligen Projektions-Diskriminator. Durch unser sorgfältig entworfenes Trainingsverfahren lernt PoE-GAN, Bilder mit hoher Qualität und Vielfalt zu generieren. Neben der Weiterentwicklung des Standes der Technik in der multimodalen bedingten Bildsynthese erzielt PoE-GAN auch bei Tests im unimodalen Setting die besten Ergebnisse im Vergleich zu den besten existierenden unimodalen Ansätzen. Die Projektwebsite ist unter https://deepimagination.github.io/PoE-GAN verfügbar.