HyperAIHyperAI

Command Palette

Search for a command to run...

Vers la traduction image-à-image multimodale

Jun-Yan Zhu Richard Zhang Deepak Pathak Trevor Darrell Alexei A. Efros Oliver Wang Eli Shechtman

Résumé

De nombreux problèmes de traduction d'image à image sont ambigus, car une seule image d'entrée peut correspondre à plusieurs sorties possibles. Dans ce travail, nous visons à modéliser une \emph{distribution} de sorties possibles dans un cadre de modélisation générative conditionnelle. L'ambiguïté de la correspondance est encapsulée dans un vecteur latent de faible dimension, qui peut être échantillonné aléatoirement au moment du test. Un générateur apprend à mapper l'entrée donnée, combinée avec ce code latent, vers la sortie. Nous encourageons explicitement la connexion entre la sortie et le code latent à être inversible. Cela aide à prévenir une correspondance de beaucoup à un (many-to-one) du code latent vers la sortie pendant l'entraînement, également connue sous le nom du problème de collapse modalité, et produit des résultats plus diversifiés. Nous explorons plusieurs variantes de cette approche en utilisant différents objectifs d'entraînement, architectures de réseau et méthodes d'injection du code latent. Notre méthode proposée favorise la cohérence bijective entre le codage latent et les modes de sortie. Nous présentons une comparaison systématique de notre méthode et d'autres variantes en termes de réalisme perceptuel et de diversité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp