Apprentissage de prompt de domaine pour une adaptation efficace de CLIP à des domaines inédits

La généralisation de domaine (Domain Generalization, DG) est un problème difficile d'apprentissage par transfert visant à apprendre un modèle généralisable à des domaines non vus. Les modèles fondamentaux récents (Foundation Models, FMs) sont robustes face à de nombreuses variations de distribution, et devraient donc améliorer considérablement les performances en DG. Dans ce travail, nous étudions des approches génériques pour exploiter CLIP, un modèle fondamental visuel-langagier, dans le cadre de problèmes de DG en classification d'images. Bien que l'ERM (Empirical Risk Minimization) améliore significativement la précision en utilisant des architectures plus grandes et des jeux de données d'entraînement plus volumineux sur des benchmarks standards de DG, le fine-tuning des FMs n'est pas pratique dans de nombreuses situations réelles. Nous proposons une nouvelle méthode appelée Apprentissage de prompt par domaine (Domain Prompt Learning, DPL), qui permet une inférence de domaine sous la forme d'une génération conditionnelle de prompts. DPL permet une amélioration notable de la précision en n'entraînant qu'un générateur de prompts léger (un MLP à trois couches), dont le nombre de paramètres est de même ordre de grandeur que celui du projecteur de classification utilisé dans les travaux antérieurs sur la DG. L'association de \dplshort~avec CLIP donne des résultats surprenants, portant la précision de CLIP zéro-shot de 73,7 % à 79,3 % sur plusieurs jeux de données standards, à savoir PACS, VLCS, OfficeHome et TerraIncognita. Nous espérons que la simplicité et le succès de notre approche encourageront une adoption plus large et une analyse approfondie des modèles fondamentaux dans le domaine de la généralisation de domaine. Notre code est disponible à l'adresse suivante : https://github.com/shogi880/DPLCLIP.