MIM-Refiner : Un Renforcement de l'Apprentissage par Contraste à Partir des Représentations Pré-Entraînées Intermédiaires

Nous présentons MIM (Modélisation d'Images Masquées)-Refiner, une amélioration de l'apprentissage par contraste pour les modèles MIM pré-entraînés. MIM-Refiner est motivé par l'observation que les représentations solides au sein des modèles MIM se trouvent généralement dans les couches intermédiaires. En conséquence, MIM-Refiner utilise plusieurs têtes de contraste connectées à différentes couches intermédiaires. Dans chaque tête, un objectif de plus proche voisin modifié construit des clusters sémantiques qui capturent des informations sémantiques, ce qui améliore les performances sur les tâches en aval, y compris dans les configurations prêtes à l'emploi et le fine-tuning.Le processus de raffinement est court et simple, mais extrêmement efficace. En quelques époques seulement, nous affinons les caractéristiques des modèles MIM de médiocres à des caractéristiques prêtes à l'emploi de pointe. Le raffinement d'un ViT-H pré-entraîné avec data2vec 2.0 sur ImageNet-1K établit un nouveau record en sondage linéaire (84,7 %) et en classification à faible nombre d'exemples parmi les modèles pré-entraînés sur ImageNet-1K. MIM-Refiner combine efficacement les avantages des objectifs MIM et ID et se compare favorablement aux précédents modèles SSL de pointe sur divers benchmarks tels que la classification à faible nombre d'exemples, la classification à queue longue, le clustering et la segmentation sémantique.