Amélioration du regroupement d'images par atténuation des artefacts lors de l'inférence grâce à l'ingénierie de l'attention

L'objectif de cet article est d'améliorer les performances des modèles de Vision Transformer (ViT) pré-entraînés, en particulier DINOv2, dans la tâche de clustering d'images sans nécessiter une ré-entraîne ou un ajustement fin. Avec l'augmentation de la taille du modèle, une anomalie d'artefacts à haute norme apparaît dans les patches de l'attention multi-têtes. Nous observons que cette anomalie entraîne une diminution de la précision du clustering d'images en zero-shot. Ces artefacts sont caractérisés par des valeurs excessivement grandes dans la carte d'attention par rapport aux autres jetons de patch. Pour remédier à ces artefacts, nous proposons une approche appelée Ingénierie de l'Attention en Temps d'Inférence (ITAE), qui manipule la fonction d'attention lors de l'inférence. Plus précisément, nous identifions les artefacts en examinant l'un des patches Query-Key-Value (QKV) dans l'attention multi-têtes et atténuons leurs valeurs d'attention correspondantes à l'intérieur des modèles pré-entraînés. L'ITAE montre une amélioration de la précision du clustering sur plusieurs jeux de données en exposant des caractéristiques plus expressives dans l'espace latent. Nos résultats mettent en lumière le potentiel de l'ITAE comme solution pratique pour réduire les artefacts dans les modèles ViT pré-entraînés et améliorer les performances du modèle dans les tâches de clustering sans nécessiter une ré-entraîne ou un ajustement fin.