il y a 6 mois

Résumé

Nous présentons VILLA, le premier effort connu visant à une formation adversaire à grande échelle pour l’apprentissage de représentations vision-langage (V+L). VILLA se compose de deux étapes d’entraînement : (i) une pré-entraînement adversaire agnostique aux tâches ; suivie de (ii) une finetuning adversaire spécifique à la tâche. Contrairement à l’ajout de perturbations adverses sur les pixels d’image ou sur les jetons textuels, nous proposons d’effectuer l’entraînement adversaire dans l’espace d’embeddings de chaque modalité. Pour permettre un entraînement à grande échelle, nous adoptons la stratégie d’entraînement adversaire « gratuite » (free), et la combinons avec une régularisation basée sur la divergence de Kullback-Leibler afin de renforcer l’invariance dans l’espace d’embeddings. Nous appliquons VILLA aux modèles V+L les plus performants actuellement disponibles, et obtenons de nouveaux états de l’art sur une large gamme de tâches, notamment la réponse à des questions visuelles (Visual Question Answering), le raisonnement visuel communautaire (Visual Commonsense Reasoning), la récupération image-texte, la compréhension d’expressions de référence, l’entraînement visuel (Visual Entailment) et NLVR2.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Entraînement adversaire à grande échelle pour l'apprentissage des représentations vision-langage

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Entraînement adversaire à grande échelle pour l'apprentissage des représentations vision-langage

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Entraînement adversaire à grande échelle pour l'apprentissage des représentations vision-langage

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters