Affinage robuste des modèles zéro-shot

Les grands modèles pré-entraînés tels que CLIP ou ALIGN offrent une précision cohérente sur une large gamme de distributions de données lors de l’inférence zéro-shot (c’est-à-dire sans adaptation fine sur un jeu de données spécifique). Bien que les méthodes existantes d’adaptation fine améliorent considérablement la précision sur une distribution cible donnée, elles réduisent souvent la robustesse aux décalages de distribution. Nous attaquons cette tension en proposant une méthode simple et efficace pour améliorer la robustesse tout en procédant à l’adaptation fine : l’ensemblage des poids des modèles zéro-shot et adaptés (WiSE-FT). Par rapport à l’adaptation fine standard, WiSE-FT apporte des gains importants de précision en cas de décalage de distribution, tout en préservant une haute précision sur la distribution cible. Sur ImageNet et cinq décalages de distribution dérivés, WiSE-FT améliore la précision en cas de décalage de distribution de 4 à 6 points de pourcentage (pp) par rapport aux méthodes antérieures, tout en augmentant la précision sur ImageNet de 1,6 pp. WiSE-FT obtient des gains similaires en robustesse (de 2 à 23 pp) sur un ensemble diversifié de six autres décalages de distribution, et des gains de précision de 0,8 à 3,3 pp par rapport à l’adaptation fine standard sur sept jeux de données couramment utilisés pour le transfert d’apprentissage. Ces améliorations sont obtenues sans coût computationnel supplémentaire durant l’adaptation fine ni lors de l’inférence.