Command Palette
Search for a command to run...
NoisyTwins : Génération d'images classiquement cohérentes et diversifiées à l’aide de StyleGANs
NoisyTwins : Génération d'images classiquement cohérentes et diversifiées à l’aide de StyleGANs
Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu
Résumé
StyleGANs se situent en tête de la génération d’images contrôlables grâce à l’espace latent qu’ils produisent, qui est sémantiquement désentrelacé, ce qui les rend adaptés à l’édition et à la manipulation d’images. Toutefois, leur performance se dégrade fortement lorsqu’ils sont entraînés par conditionnement par classe sur des jeux de données à grande échelle à distribution longue et déséquilibrée. Nous constatons qu’une des causes de cette dégradation réside dans le collapsus des latents pour chaque classe dans l’espace latent W. Avec NoisyTwins, nous introduisons tout d’abord une stratégie d’augmentation efficace et peu coûteuse pour les embeddings de classes, qui décorrèle ensuite les latents grâce à une auto-supervision dans l’espace W. Cette décorrélation atténue le collapsus, garantissant que notre méthode préserve la diversité intra-classe tout en maintenant une cohérence de classe dans la génération d’images. Nous démontrons l’efficacité de notre approche sur des jeux de données réels à grande échelle et à distribution longue, tels qu’ImageNet-LT et iNaturalist 2019, où notre méthode surpasse les autres méthodes d’environ 19 % en FID, établissant ainsi un nouveau record d’état de l’art.