AdaCLIP : Adaptation de CLIP à l’aide de promts apprenables hybrides pour la détection d’anomalies zéro-shot

La détection d’anomalies zéro-shot (ZSAD) vise à identifier des anomalies dans des images appartenant à des catégories nouvelles et arbitraires. Cette étude présente AdaCLIP, une méthode conçue pour la tâche de ZSAD, qui exploite un modèle vision-langage pré-entraîné (VLM), CLIP. AdaCLIP intègre des prompts apprenables dans CLIP et les optimise par apprentissage à partir de données d’annotation auxiliaires pour la détection d’anomalies. Deux types de prompts apprenables sont proposés : des prompts statiques et des prompts dynamiques. Les prompts statiques sont partagés entre toutes les images et servent à une adaptation initiale de CLIP à la ZSAD. En revanche, les prompts dynamiques sont générés spécifiquement pour chaque image de test, offrant ainsi à CLIP une capacité d’adaptation dynamique. La combinaison des prompts statiques et dynamiques est désignée sous le nom de « prompts hybrides », et elle permet d’obtenir des performances améliorées en détection d’anomalies zéro-shot. Des expériences étendues menées sur 14 jeux de données réels provenant de domaines industriels et médicaux montrent que AdaCLIP surpasser les autres méthodes de ZSAD et présente une meilleure généralisation à des catégories variées, voire à des domaines différents. Enfin, notre analyse met en évidence l’importance de la diversité des données auxiliaires et de l’optimisation des prompts pour renforcer la capacité de généralisation. Le code est disponible à l’adresse suivante : https://github.com/caoyunkang/AdaCLIP.