Augmentations génératives sémantiques pour le comptage en peu d'exemples

Grâce à la disponibilité de puissants modèles de diffusion texte-vers-image, des travaux récents ont exploré l’utilisation de données synthétiques pour améliorer les performances de classification d’images. Ces études montrent que les données synthétiques peuvent efficacement compléter ou même remplacer les données réelles. Dans ce travail, nous étudions comment les données synthétiques peuvent bénéficier au comptage peu-schéma sans discrimination de classe. Cette tâche nécessite la génération d’images correspondant à un nombre donné d’objets. Toutefois, les modèles texte-vers-image peinent à saisir la notion de comptage. Nous proposons de conditionner doublement Stable Diffusion à la fois par une description textuelle (prompt) et par une carte de densité, afin d’enrichir un jeu de données d’entraînement pour le comptage peu-schéma. En raison de la taille réduite du jeu de données, le modèle fine-tuné a tendance à générer des images proches de celles du jeu d’entraînement. Pour améliorer la diversité des images synthétisées, nous proposons d’échanger les légendes entre images, créant ainsi des configurations inédites en termes de types d’objets et de disposition spatiale. Nos expériences montrent que notre stratégie de génération diversifiée améliore significativement la précision du comptage de deux modèles récents et performants de comptage peu-schéma sur les jeux de données FSC147 et CARPK.