Lorsque le texte et les images ne s'accordent pas : correction des biais des scores de similarité langage-image pour la détection d'anomalies

Le préentraînement contrastif image-texte (CLIP) obtient des performances remarquables sur diverses tâches downstream grâce à l’alignement des embeddings d’entrée image et texte, et s’annonce prometteur pour la détection d’anomalies. Toutefois, nos expériences empiriques révèlent que les embeddings des entrées textuelles se regroupent de manière inattendue de manière très dense, s’éloignant considérablement des embeddings d’images, ce qui contredit l’objectif d’apprentissage contrastif du modèle visant à aligner les paires image-texte. Nous montrons que ce phénomène engendre un « biais de similarité » — une source d’erreurs de type faux négatif et faux positif dues à un biais dans les similarités entre les images et les embeddings de texte associés à l’étiquette normale. Pour corriger ce biais, nous proposons une nouvelle méthodologie, appelée BLISS, qui prend directement en compte ce biais de similarité grâce à l’utilisation d’un ensemble auxiliaire externe de textes. BLISS est simple, ne nécessite ni biais inductifs forts concernant le comportement anormal, ni processus d’entraînement coûteux, et surpasse significativement les méthodes de référence sur des jeux de données d’images standard, même lorsque les données normales sont extrêmement limitées.