HyperAIHyperAI

Command Palette

Search for a command to run...

LiT : Transfert zéro-shot avec l’ajustement de texte à image verrouillée

Xiaohua Zhai*† Xiao Wang* Basil Mustafa* Andreas Steiner* Daniel Keysers Alexander Kolesnikov Lucas Beyer*†

Résumé

Ce document présente le contraste-tuning, une méthode simple utilisant l'entraînement par contraste pour aligner les modèles d'images et de texte tout en profitant de leur pré-entraînement. Dans notre étude empirique, nous avons constaté que les modèles d'images pré-entraînés verrouillés associés à des modèles de texte non verrouillés fonctionnent le mieux. Nous appelons cette instance du contraste-tuning « Verrouillage d'image » (LiT), qui enseigne simplement à un modèle de texte à extraire de bonnes représentations d'un modèle d'images pré-entraîné pour de nouvelles tâches. Un modèle LiT acquiert la capacité de transfert zéro-shot vers de nouvelles tâches visuelles, telles que la classification ou la recherche d'images. Le LiT proposé est largement applicable ; il fonctionne de manière fiable avec plusieurs méthodes de pré-entraînement (supervisé et non supervisé) et sur diverses architectures (ResNet, Transformers visuels et MLP-Mixer) en utilisant trois différents jeux de données image-texte. Avec le modèle ViT-g/14 pré-entraîné basé sur les transformers, le modèle LiT atteint une précision de transfert zéro-shot de 85,2 % sur l'ensemble de test ImageNet, et 82,5 % sur l'ensemble de test ObjectNet plus complexe et hors distribution.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LiT : Transfert zéro-shot avec l’ajustement de texte à image verrouillée | Articles | HyperAI