il y a 11 jours

D3Former : Transformer à double distillation débiaisée pour l’apprentissage incrémental

Abdelrahman Mohamed, Rushali Grandhe, K J Joseph, Salman Khan, Fahad Khan

Résumé

Dans le cadre de l'apprentissage incrémental en classes (CIL), des groupes de classes sont introduits progressivement à un modèle au cours de chaque phase d'apprentissage. L'objectif consiste à apprendre un modèle unifié performant sur l'ensemble des classes observées jusqu'alors. Étant donné la popularité croissante des Vision Transformers (ViTs) dans les tâches classiques de classification, une question intéressante consiste à étudier leur comportement en apprentissage continu. Dans ce travail, nous proposons un modèle de Transformer débiaisé et à double distillation pour le CIL, nommé $\textrm{D}^3\textrm{Former}$. Le modèle proposé exploite une architecture hybride en nid de ViTs afin d’assurer une efficacité des données et une scalabilité à la fois sur des jeux de données petits et grands. Contrairement à une approche récente basée sur les ViTs pour le CIL, notre $\textrm{D}^3\textrm{Former}$ ne modifie pas dynamiquement sa structure lors de l’apprentissage de nouvelles tâches, ce qui le rend adapté à un grand nombre de tâches incrémentales. L’amélioration de ses performances en CIL s’explique par deux modifications fondamentales apportées à la conception des ViTs. Premièrement, nous traitons l’apprentissage incrémental comme un problème de classification à queue longue, où le nombre de données provenant des nouvelles classes domine largement le petit nombre d’exemplaires disponibles pour les anciennes classes. Afin d’éviter un biais en faveur des nouvelles classes au détriment des anciennes (minoritaires), nous proposons d’ajuster dynamiquement les logits pour renforcer la préservation des représentations pertinentes aux tâches anciennes. Deuxièmement, nous proposons de préserver la configuration des cartes d’attention spatiale au fil de l’apprentissage à travers les tâches. Cette stratégie contribue à réduire le « oubli catastrophique » en contraindre le modèle à maintenir son attention sur les régions les plus discriminantes. $\textrm{D}^3\textrm{Former}$ obtient des résultats favorables sur des versions incrémentales des jeux de données CIFAR-100, MNIST, SVHN et ImageNet. Le code est disponible à l’adresse https://tinyurl.com/d3former