TTD : Auto-distillation de texte-étiquette pour améliorer l'alignement image-texte dans CLIP et atténuer le biais d'étiquette unique

Nous identifions un biais critique dans les modèles contemporains basés sur CLIP, que nous désignons comme le biais de tag unique (single tag bias). Ce biais se manifeste par une attention disproportionnée portée à un seul tag (mot) tout en négligeant d'autres tags pertinents, résultant des plongements textuels de CLIP qui privilégient un tag spécifique dans les relations image-texte. Lors de la décomposition du texte en tags individuels, seul un tag tend à avoir une forte pertinence avec le plongement d'image de CLIP, conduisant ainsi à une pertinence biaisée des tags. Dans cet article, nous introduisons une nouvelle approche de fine-tuning en deux étapes, appelée Text-Tag Self-Distillation (TTD), pour relever ce défi. TTD extrait d'abord des tags pertinents pour l'image à partir du texte en fonction de leur similarité avec les pixels les plus proches, puis utilise une stratégie d'autodistillation pour aligner les masques combinés avec le masque dérivé du texte. Cette méthode garantit l'alignement non biaisé image-texte des modèles basés sur CLIP en utilisant uniquement des paires image-texte sans nécessiter une supervision supplémentaire. Notre technique montre des améliorations indépendantes du modèle dans les tâches de classification et de segmentation multi-tags, surpassant les méthodes concurrentes qui s'appuient sur des ressources externes. Le code est disponible à l'adresse suivante : https://github.com/shjo-april/TTD.