HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement adversaire à grande échelle pour l'apprentissage des représentations vision-langage

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

Nous présentons VILLA, le premier effort connu visant à une formation adversaire à grande échelle pour l’apprentissage de représentations vision-langage (V+L). VILLA se compose de deux étapes d’entraînement : (i) une pré-entraînement adversaire agnostique aux tâches ; suivie de (ii) une finetuning adversaire spécifique à la tâche. Contrairement à l’ajout de perturbations adverses sur les pixels d’image ou sur les jetons textuels, nous proposons d’effectuer l’entraînement adversaire dans l’espace d’embeddings de chaque modalité. Pour permettre un entraînement à grande échelle, nous adoptons la stratégie d’entraînement adversaire « gratuite » (free), et la combinons avec une régularisation basée sur la divergence de Kullback-Leibler afin de renforcer l’invariance dans l’espace d’embeddings. Nous appliquons VILLA aux modèles V+L les plus performants actuellement disponibles, et obtenons de nouveaux états de l’art sur une large gamme de tâches, notamment la réponse à des questions visuelles (Visual Question Answering), le raisonnement visuel communautaire (Visual Commonsense Reasoning), la récupération image-texte, la compréhension d’expressions de référence, l’entraînement visuel (Visual Entailment) et NLVR2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp