Command Palette
Search for a command to run...
Avancer la classification fine-grainée par augmentation préservant la structure et le sujet
Avancer la classification fine-grainée par augmentation préservant la structure et le sujet
Eyal Michaeli Ohad Fried
Résumé
La classification visuelle fine-grainée (FGVC) implique la classification de sous-classes étroitement liées. Cette tâche est difficile en raison des différences subtiles entre les classes et de la forte variance intra-classe. De plus, les jeux de données FGVC sont généralement petits et difficiles à constituer, ce qui souligne un besoin significatif d'augmentation de données efficace. Les récentes avancées dans les modèles de diffusion text-to-image offrent de nouvelles possibilités pour l'augmentation des jeux de données de classification. Bien que ces modèles aient été utilisés pour générer des données d'entraînement pour des tâches de classification, leur efficacité dans l'entraînement complet sur des jeux de données entiers pour les modèles FGVC reste peu explorée. Les techniques récentes basées sur la génération Text2Image ou Img2Img peinent souvent à générer des images qui représentent fidèlement la classe tout en les modifiant suffisamment pour augmenter considérablement la diversité du jeu de données. Pour relever ces défis, nous présentons SaSPA : Augmentation Préservant la Structure et le Sujet. Contrairement aux méthodes récentes, notre méthode ne s'appuie pas sur des images réelles comme guide, ce qui augmente la flexibilité de génération et favorise une plus grande diversité. Pour garantir une représentation précise des classes, nous utilisons des mécanismes de conditionnement, spécifiquement en conditionnant sur les contours d'image et la représentation du sujet. Nous menons des expériences approfondies et évaluons SaSPA par rapport aux méthodes traditionnelles et récentes d'augmentation de données génératives. SaSPA surpasse constamment toutes les lignes de base établies dans plusieurs configurations, y compris l'entraînement sur le jeu de données complet, le biais contextuel et la classification avec peu d'exemples (few-shot). Nos résultats révèlent également des schémas intéressants dans l'utilisation de données synthétiques pour les modèles FGVC ; par exemple, nous trouvons une relation entre la quantité de données réelles utilisées et la proportion optimale de données synthétiques. Le code est disponible à l'adresse suivante : https://github.com/EyalMichaeli/SaSPA-Aug.