Affinage robuste conscient du contexte

Les modèles pré-entraînés en vision et langage par contraste (Contrastive Language-Image Pre-trained, CLIP) possèdent une capacité zero-shot pour classer une image comme appartenant à une catégorie « [CLASSE] » en exploitant la similarité entre l’image et une phrase de prompt de la forme « un [CONTEXTE] de [CLASSE] ». Grâce aux indications textuelles exhaustives contenues dans « [CONTEXTE] », le modèle CLIP est capable de tenir compte de divers contextes — tels que l’arrière-plan, le style, le point de vue — et présente ainsi une robustesse inédite face à une large gamme de décalages de distribution. Toutefois, des travaux récents ont montré que le fine-tuning ultérieur des modèles CLIP améliore la précision sur les tâches de descente, mais au détriment de leur robustesse. Nous menons une investigation empirique pour démontrer que le fine-tuning altère la capacité du modèle pré-entraîné CLIP à percevoir le contexte. Pour résoudre ce problème, nous proposons une méthode de fine-tuning robuste et consciente du contexte, appelée CAR-FT (Context-Aware Robust Fine-tuning). CAR-FT régularise le modèle pendant le fine-tuning afin de préserver et renforcer l’information contextuelle. Plus précisément, nous utilisons les poids des prompts zero-shot pour estimer la distribution contextuelle contenue dans l’image. En minimisant la divergence de Kullback-Leibler (KLD) entre les distributions contextuelles induites respectivement par les modèles CLIP d’origine et ajustés, CAR-FT permet de transférer la capacité contextuelle du modèle pré-entraîné vers les tâches de descente, tout en atteignant à la fois une meilleure précision in-distribution (ID) et out-of-distribution (OOD). Les résultats expérimentaux montrent que CAR-FT obtient une robustesse supérieure sur cinq jeux de tests OOD de ImageNet, tout en améliorant la précision sur neuf tâches de descente. En outre, CAR-FT dépasse les méthodes précédentes de généralisation de domaine (Domain Generalization, DG) et atteint une précision moyenne de 78,5 % sur le benchmark DomainBed, établissant ainsi un nouveau record d’état de l’art.