HyperAIHyperAI
il y a 17 jours

Synthèse d’images conditionnelles multimodales avec des GANs produit d’experts

Xun Huang, Arun Mallya, Ting-Chun Wang, Ming-Yu Liu
Synthèse d’images conditionnelles multimodales avec des GANs produit d’experts
Résumé

Les cadres existants de synthèse d’images conditionnelles génèrent des images à partir d’entrées utilisateur dans une seule modalité, comme le texte, la segmentation, le croquis ou une référence de style. Ils sont souvent incapables d’exploiter des entrées multimodales lorsque celles-ci sont disponibles, ce qui limite leur utilité pratique. Pour remédier à cette limitation, nous proposons le cadre PoE-GAN (Product-of-Experts Generative Adversarial Networks), capable de synthétiser des images conditionnelles à plusieurs modalités d’entrée, ou à tout sous-ensemble de celles-ci, y compris l’ensemble vide. Le PoE-GAN se compose d’un générateur basé sur le produit d’experts et d’un discriminateur multimodal à projection multiscale. Grâce à notre stratégie d’entraînement soigneusement conçue, le PoE-GAN apprend à produire des images de haute qualité et de grande diversité. En outre, en plus d’avancer l’état de l’art dans la synthèse d’images conditionnelles multimodales, le PoE-GAN surpasser également les meilleures approches existantes de synthèse d’images conditionnelles unimodales lorsqu’il est évalué dans un cadre unimodal. Le site du projet est disponible à l’adresse suivante : https://deepimagination.github.io/PoE-GAN.

Synthèse d’images conditionnelles multimodales avec des GANs produit d’experts | Articles de recherche récents | HyperAI