il y a 2 mois

LiT : Transfert zéro-shot avec l’ajustement de texte à image verrouillée

Xiaohua Zhai; Xiao Wang; Basil Mustafa; Andreas Steiner; Daniel Keysers; Alexander Kolesnikov; Lucas Beyer

Résumé

Ce document présente le contraste-tuning, une méthode simple utilisant l'entraînement par contraste pour aligner les modèles d'images et de texte tout en profitant de leur pré-entraînement. Dans notre étude empirique, nous avons constaté que les modèles d'images pré-entraînés verrouillés associés à des modèles de texte non verrouillés fonctionnent le mieux. Nous appelons cette instance du contraste-tuning « Verrouillage d'image » (LiT), qui enseigne simplement à un modèle de texte à extraire de bonnes représentations d'un modèle d'images pré-entraîné pour de nouvelles tâches. Un modèle LiT acquiert la capacité de transfert zéro-shot vers de nouvelles tâches visuelles, telles que la classification ou la recherche d'images. Le LiT proposé est largement applicable ; il fonctionne de manière fiable avec plusieurs méthodes de pré-entraînement (supervisé et non supervisé) et sur diverses architectures (ResNet, Transformers visuels et MLP-Mixer) en utilisant trois différents jeux de données image-texte. Avec le modèle ViT-g/14 pré-entraîné basé sur les transformers, le modèle LiT atteint une précision de transfert zéro-shot de 85,2 % sur l'ensemble de test ImageNet, et 82,5 % sur l'ensemble de test ObjectNet plus complexe et hors distribution.