HyperAIHyperAI

Command Palette

Search for a command to run...

LXMERT : Apprentissage des représentations d'encodeurs intermodaux à partir de transformateurs

Hao Tan Mohit Bansal

Résumé

Le raisonnement vision-langage nécessite une compréhension des concepts visuels, de la sémantique du langage et, plus important encore, l'alignement et les relations entre ces deux modalités. Nous proposons donc le cadre LXMERT (Learning Cross-Modality Encoder Representations from Transformers) pour apprendre ces connexions vision-langage. Dans LXMERT, nous construisons un modèle Transformer à grande échelle composé de trois encodeurs : un encodeur de relations d'objets, un encodeur de langage et un encodeur inter-modalités. Ensuite, pour doter notre modèle de la capacité de connecter la sémantique visuelle et linguistique, nous pré-entraînons le modèle avec de grandes quantités de paires image-sentence, via cinq tâches de pré-entraînement diverses et représentatives : le masquage linguistique (masked language modeling), la prédiction d'objets masqués (feature regression et label classification), le couplage inter-modalités et la réponse à des questions sur des images. Ces tâches aident à apprendre les relations intra-modales et inter-modales. Après l'affinage à partir de nos paramètres pré-entraînés, notre modèle obtient des résultats d'état de l'art sur deux ensembles de données de questions-réponses visuelles (à savoir VQA et GQA). Nous démontrons également la généralisabilité de notre modèle pré-entraîné inter-modalités en l'adaptant à une tâche complexe de raisonnement visuel, NLVR2, améliorant ainsi le meilleur résultat précédent d'un taux absolu de 22 % (de 54 % à 76 %). Enfin, nous présentons des études d'ablation détaillées pour prouver que nos nouvelles composantes du modèle et nos stratégies de pré-entraînement contribuent significativement à nos résultats solides ; nous présentons également plusieurs visualisations d'attention pour les différents encodeurs. Le code source et les modèles pré-entraînés sont disponibles publiquement sur : https://github.com/airsplay/lxmert


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp