BIGRoC : Accélération de la génération d'images grâce à un classificateur robuste

L'intérêt de la communauté du machine learning pour la synthèse d'images a considérablement augmenté ces dernières années, avec l'introduction d'une large gamme de modèles génératifs profonds ainsi que de méthodes d'entraînement associées. Dans ce travail, nous proposons une technique générale et indépendante du modèle pour améliorer la qualité des images générées ainsi que la fidélité de leur distribution, quel que soit le modèle générateur utilisé. Notre méthode, baptisée BIGRoC (Boosting Image Generation via a Robust Classifier), repose sur un post-traitement guidé par un classificateur robuste, sans nécessiter d'entraînement supplémentaire du modèle générateur. Étant donné une image synthétisée, nous proposons de la réviser en effectuant des étapes de gradient projeté sur le classificateur robuste, afin d'améliorer sa reconnaissance. Nous validons cette méthode sur diverses approches de synthèse d'images et montrons une amélioration significative, à la fois quantitative et qualitative, sur les jeux de données CIFAR-10 et ImageNet. De manière surprenante, bien que BIGRoC soit la première méthode indépendante du modèle parmi les approches de raffinement et requière moins d'informations, elle surpasse les méthodes concurrentes. Plus précisément, BIGRoC améliore le meilleur modèle de diffusion sur ImageNet 128×128 de 14,81 %, atteignant un score FID de 2,53, et de 7,87 % sur 256×256, obtenant un score FID de 3,63. En outre, nous avons mené une enquête d'opinion, dont les résultats montrent que les humains préfèrent nettement les sorties produites par notre méthode.