il y a 3 mois

L'apprentissage contrastif fait concurrence au modèle d'image masquée lors du fine-tuning par distillation de caractéristiques

Yixuan Wei, Han Hu, Zhenda Xie, Zheng Zhang, Yue Cao, Jianmin Bao, Dong Chen, Baining Guo

Résumé

Le modèle d'image masquée (MIM) apprend des représentations présentant des performances remarquables en fine-tuning, surpassant ainsi les approches pré-entraînées auparavant dominantes, telles que la classification d'images, l'apprentissage contrastif d'instances ou l'alignement image-texte. Dans ce travail, nous démontrons que les performances en fine-tuning de ces approches pré-entraînées peuvent être considérablement améliorées par un simple post-traitement sous la forme d'une distillation de caractéristiques (FD). Cette distillation de caractéristiques convertit les anciennes représentations en de nouvelles représentations possédant plusieurs propriétés souhaitables, similaires à celles produites par le MIM. Ces propriétés, que nous désignons collectivement sous le terme « amabilité en optimisation », sont identifiées et analysées à l’aide d’outils diagnostiques liés à l’attention et à l’optimisation. Grâce à ces propriétés, les nouvelles représentations montrent des performances de fine-tuning très robustes. Plus précisément, les méthodes d’apprentissage auto-supervisé par contraste sont rendues aussi compétitives en fine-tuning que les algorithmes d’état de l’art basés sur le MIM. Les performances en fine-tuning des modèles CLIP sont également améliorées de manière significative, avec un modèle CLIP ViT-L atteignant une précision top-1 de 89,0 % sur la classification ImageNet-1K. Sur le modèle SwinV2-G de 3 milliards de paramètres, l’exactitude en fine-tuning est améliorée de +1,5 mIoU et +1,1 mAP, atteignant respectivement 61,4 mIoU sur la segmentation sémantique ADE20K et 64,2 mAP sur la détection d’objets COCO, établissant de nouveaux records sur ces deux benchmarks. Plus important encore, notre travail ouvre la voie à une recherche future qui peut se concentrer davantage sur la généralité et la scalabilité des représentations apprises, sans avoir à s’occuper préalablement de l’amabilité en optimisation, puisque celle-ci peut être renforcée relativement facilement. Le code sera disponible à l’adresse suivante : https://github.com/SwinTransformer/Feature-Distillation.