Label Ranker : Préférence auto-consciente pour la position de l'étiquette de classification dans un modèle pré-entraîné auto-supervisé visuel
Cette étude examine l'impact de l'initialisation aléatoire de l'encodage unique de la position des étiquettes de classification sur les modèles pré-entraînés auto-supervisés par masquage visuel lors de la fine-tuning de tâches de classification descendantes. Nos résultats indiquent que différentes initialisations aléatoires entraînent des variations significatives dans les performances après fine-tuning, même lorsque la stratégie d'allocation des données de classification reste identique. L'écart d'accuracy observé entre ces résultats suggère que le modèle pré-entraîné auto-supervisé par masquage visuel présente une préférence intrinsèque pour certaines positions des étiquettes de classification. Pour explorer cette observation, nous comparons ce modèle à un modèle pré-entraîné visuel non auto-supervisé, et formulons l'hypothèse selon laquelle le modèle auto-supervisé par masquage présente un biais d'autosensibilité en faveur de certaines positions d'étiquettes. Afin de réduire l'instabilité provoquée par l'encodage aléatoire, nous proposons un algorithme de classement de la position des étiquettes de classification, nommé Label Ranker. Cet algorithme repose sur une réduction de dimensionnalité unidimensionnelle des cartes de caractéristiques via l'Analyse Discriminante Linéaire (LDA), suivie d'un encodage par rang des positions obtenues par regroupement non supervisé des caractéristiques, exploitant la propriété de similarité de la distance euclidienne. Cette approche garantit que l'encodage de la position des étiquettes s'aligne avec la préférence inhérente du modèle. Des expérimentations ablatives étendues menées sur les modèles ImageMAE et VideoMAE, sur les jeux de données de classification CIFAR-100, UCF101 et HMDB51, valident notre méthode. Les résultats démontrent que notre approche stabilise efficacement l'encodage de la position des étiquettes de classification, améliorant ainsi les performances après fine-tuning des modèles visuels auto-supervisés par masquage.