NoisyTwins : Génération d'images classiquement cohérentes et diversifiées à l’aide de StyleGANs

StyleGANs se situent en tête de la génération d’images contrôlables grâce à l’espace latent qu’ils produisent, qui est sémantiquement désentrelacé, ce qui les rend adaptés à l’édition et à la manipulation d’images. Toutefois, leur performance se dégrade fortement lorsqu’ils sont entraînés par conditionnement par classe sur des jeux de données à grande échelle à distribution longue et déséquilibrée. Nous constatons qu’une des causes de cette dégradation réside dans le collapsus des latents pour chaque classe dans l’espace latent $\mathcal{W}$. Avec NoisyTwins, nous introduisons tout d’abord une stratégie d’augmentation efficace et peu coûteuse pour les embeddings de classes, qui décorrèle ensuite les latents grâce à une auto-supervision dans l’espace $\mathcal{W}$. Cette décorrélation atténue le collapsus, garantissant que notre méthode préserve la diversité intra-classe tout en maintenant une cohérence de classe dans la génération d’images. Nous démontrons l’efficacité de notre approche sur des jeux de données réels à grande échelle et à distribution longue, tels qu’ImageNet-LT et iNaturalist 2019, où notre méthode surpasse les autres méthodes d’environ 19 % en FID, établissant ainsi un nouveau record d’état de l’art.