HyperAIHyperAI

Command Palette

Search for a command to run...

Perte Sigmoide pour l'Entraînement Préalable Langage-Image

Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer

Résumé

Nous proposons une perte sigmoïde pair à pair simple pour l’apprentissage préalable langage-image (SigLIP). Contrairement à l’apprentissage contrastif classique utilisant une normalisation par softmax, la perte sigmoïde s’applique uniquement aux paires image-texte et ne nécessite pas de vue globale des similarités entre paires pour la normalisation. Cette perte permet simultanément une augmentation plus importante de la taille du batch, tout en offrant de meilleures performances même avec des tailles de batch réduites. En combinaison avec le réglage verrouillé des images (Locked-image Tuning), nous entraînons un modèle SigLiT en seulement deux jours, à l’aide de quatre puces TPUv4, atteignant une précision de 84,5 % sur ImageNet en mode zéro-shot. Le décloisonnement entre la taille du batch et la fonction de perte permet également d’étudier l’impact des exemples par rapport aux paires, ainsi que celui du ratio entre négatifs et positifs. Enfin, nous poussons la taille du batch à son extrême, jusqu’à un million, et constatons que les bénéfices liés à l’augmentation de la taille du batch diminuent rapidement, rendant une taille raisonnable de 32 000 suffisante. Nous mettons nos modèles à disposition à l’adresse suivante : https://github.com/google-research/big_vision, et espérons que cette recherche stimulera d’autres recherches visant à améliorer la qualité et l’efficacité de l’apprentissage préalable langage-image.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp