HyperAIHyperAI
il y a 17 jours

Les GANs à coût variable pour la synthèse et l'édition d'images interactives

Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu
Les GANs à coût variable pour la synthèse et l'édition d'images interactives
Résumé

Les réseaux antagonistes génératifs (GANs) ont permis la synthèse et l’édition d’images photoréalistes. Toutefois, en raison du coût computationnel élevé des générateurs à grande échelle (par exemple, StyleGAN2), il faut généralement plusieurs secondes pour visualiser les résultats d’une seule modification sur des dispositifs embarqués, ce qui empêche toute expérience utilisateur interactive. Dans cet article, nous nous inspirons des logiciels de rendu modernes et proposons Anycost GAN, un modèle dédié à l’édition interactive d’images naturelles. Nous entraînons Anycost GAN pour supporter des résolutions et des nombres de canaux flexibles, permettant une génération d’images plus rapide à différentes vitesses. L’exécution de sous-ensembles du générateur complet produit des sorties perceptuellement similaires à celles du générateur complet, les rendant ainsi de bons proxies pour les prévisualisations. Grâce à une méthode d’entraînement multi-résolution basée sur l’échantillonnage, un entraînement adaptatif sur les canaux et un discriminateur conditionné par le générateur, le générateur « anycost » peut être évalué dans diverses configurations tout en offrant une qualité d’image supérieure à celle des modèles entraînés séparément. En outre, nous développons de nouvelles techniques d’entraînement du codeur et d’optimisation du code latent afin de favoriser la cohérence entre les différents sous-générateurs lors de la projection d’images. Anycost GAN peut être exécuté avec différents budgets de coût computationnel (jusqu’à une réduction de 10 fois du calcul) et s’adapter à une large gamme de matériels et de contraintes de latence. Lorsqu’il est déployé sur des processeurs de bureau ou des dispositifs embarqués, notre modèle fournit des prévisualisations perceptuellement similaires avec une accélération de 6 à 12 fois, rendant ainsi possible l’édition interactive d’images. Le code source et une démonstration sont disponibles publiquement : https://github.com/mit-han-lab/anycost-gan.