HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage robuste de représentations intermodales avec auto-distillation progressive

Alex Andonian Shixing Chen Raffay Hamid

Résumé

L'objectif d'apprentissage de l'approche vision-langage de CLIP ne prend pas efficacement en compte les correspondances bruitées du type plusieurs-à-plusieurs présentes dans les jeux de données d'annotations d'images issus du web, ce qui contribue à son inefficacité en termes de ressources computationnelles et de données. Pour relever ce défi, nous proposons un nouveau cadre d'entraînement fondé sur l'apprentissage contrastif cross-modale, qui utilise une auto-distillation progressive et des alignements image-texte souples afin d'apprendre plus efficacement des représentations robustes à partir de données bruitées. Notre modèle distille ses propres connaissances afin de générer dynamiquement des cibles d'alignement souple pour un sous-ensemble d'images et de légendes dans chaque mini-batch, lesquelles sont ensuite utilisées pour mettre à jour ses paramètres. Une évaluation étendue sur 14 jeux de données de référence montre que notre méthode surpasse de manière cohérente son homologue CLIP dans plusieurs configurations, notamment : (a) la classification zéro-shot, (b) le transfert par sondage linéaire, et (c) la récupération image-texte, sans aucun coût computationnel supplémentaire. Une analyse menée à l'aide d'un environnement de test basé sur ImageNet révèle que notre méthode offre une robustesse effective supérieure aux décalages de distribution naturels par rapport à à la fois aux modèles entraînés sur ImageNet et à CLIP lui-même. Enfin, un entraînement préalable sur des jeux de données couvrant deux ordres de grandeur en taille montre que nos améliorations par rapport à CLIP tendent à croître avec le nombre d'exemples d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp