HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale bedingte Bildsynthese mit Product-of-Experts GANs

Xun Huang Arun Mallya Ting-Chun Wang Ming-Yu Liu

Zusammenfassung

Bestehende Frameworks für bedingte Bildsynthese generieren Bilder basierend auf Benutzereingaben in einer einzigen Modalität, beispielsweise Text, Segmentierung, Skizze oder Stilreferenz. Sie können meist keine multimodalen Benutzereingaben nutzen, falls solche verfügbar sind, was ihre Praktikabilität einschränkt. Um diese Beschränkung zu überwinden, schlagen wir den Product-of-Experts Generative Adversarial Networks (PoE-GAN)-Ansatz vor, der Bilder bedingt auf mehrere Eingabemodalitäten oder beliebige Teilmengen davon – sogar auf die leere Menge – synthetisieren kann. PoE-GAN besteht aus einem Product-of-Experts-Generator und einem multimodalen, multiskaligen Projektions-Diskriminator. Durch unser sorgfältig entworfenes Trainingsverfahren lernt PoE-GAN, Bilder mit hoher Qualität und Vielfalt zu generieren. Neben der Weiterentwicklung des Standes der Technik in der multimodalen bedingten Bildsynthese erzielt PoE-GAN auch bei Tests im unimodalen Setting die besten Ergebnisse im Vergleich zu den besten existierenden unimodalen Ansätzen. Die Projektwebsite ist unter https://deepimagination.github.io/PoE-GAN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp