HyperAIHyperAI
il y a 15 jours

Les transformateurs pré-entraînés Vision et Langage sont des apprentis incrémentaux à faible exemple

Keon-Hee Park, Kyungwoo Song, Gyeong-Moon Park
Les transformateurs pré-entraînés Vision et Langage sont des apprentis incrémentaux à faible exemple
Résumé

L'apprentissage incrémental de classes à faible exemple (Few-Shot Class Incremental Learning, FSCIL) est une tâche qui consiste à entraîner un modèle pour apprendre de nouvelles classes de manière incrémentale, sans oublier les connaissances antérieures, tout en disposant uniquement de très peu d'exemples par classe. Le FSCIL fait face à deux défis majeurs : le phénomène d'oubli catastrophique (catastrophic forgetting) et le surapprentissage (overfitting), ce qui a conduit les travaux antérieurs à privilégier principalement des modèles peu profonds, tels que ResNet-18. Bien que leur capacité limitée permette de réduire à la fois les problèmes d'oubli et de surapprentissage, elle entrave néanmoins le transfert efficace des connaissances lors des sessions incrémentales à faible exemple. Dans cet article, nous soutenons qu'il est possible d'utiliser des modèles de grande taille, tels que les transformateurs vision-langage pré-entraînés sur de grands jeux de données, comme de très bons apprentis incrémentaux à faible exemple. À cette fin, nous proposons un cadre novateur pour le FSCIL appelé PriViLege, pour Pre-trained Vision and Language transformers with prompting functions and knowledge distillation. Notre approche surmonte efficacement les défis liés à l'oubli catastrophique et au surapprentissage dans les grands modèles grâce à une nouvelle méthode de réglage des connaissances pré-entraînées (Pre-trained Knowledge Tuning, PKT), ainsi qu'à deux nouvelles fonctions de perte : une perte de divergence basée sur l'entropie et une perte de distillation de connaissances sémantiques. Les résultats expérimentaux montrent que PriViLege surpassent de manière significative les méthodes de pointe existantes, avec des gains importants : +9,38 % sur CUB200, +20,58 % sur CIFAR-100 et +13,36 % sur miniImageNet. Le code source de notre implémentation est disponible à l'adresse suivante : https://github.com/KHU-AGI/PriViLege.