HyperAIHyperAI
il y a 15 jours

Une étude empirique sur l'entraînement des transformateurs vision-langage bout-en-bout

Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
Une étude empirique sur l'entraînement des transformateurs vision-langage bout-en-bout
Résumé

La pré-formation vision-langage (VL) s’est avérée extrêmement efficace sur diverses tâches downstream VL. Bien que des travaux récents aient montré que les modèles VL entièrement basés sur les transformateurs peuvent être plus efficaces que les méthodes précédentes fondées sur les caractéristiques de régions, leurs performances sur les tâches downstream déclinent souvent de manière significative. Dans cet article, nous présentons METER, un cadre multimodal end-to-end TransformER, dans lequel nous étudions comment concevoir et pré-entraîner un modèle VL entièrement basé sur les transformateurs de manière end-to-end. Plus précisément, nous analysons les architectures selon plusieurs dimensions : encodeurs visuels (par exemple, CLIP-ViT, Swin Transformer), encodeurs textuels (par exemple, RoBERTa, DeBERTa), module de fusion multimodale (par exemple, attention fusionnée vs. co-attention), architecture globale (par exemple, encodeur uniquement vs. encodeur-décodeur) et objectifs de pré-formation (par exemple, modélisation d’image masquée). Nous menons des expériences approfondies et proposons des insights sur la manière d’entraîner un modèle transformer VL performant. METER atteint une précision de 77,64 % sur l’ensemble de test-std de VQAv2 en utilisant uniquement 4 millions d’images pour la pré-formation, dépassant ainsi le modèle d’état de l’art basé sur les caractéristiques de régions de 1,04 %, et surpassant de 1,6 % le meilleur modèle entièrement basé sur les transformateurs précédemment connu. Notamment, lorsqu’il est encore élargi, notre meilleur modèle de résolution de questions visuelles atteint une précision de 80,54 %. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zdou0830/METER.

Une étude empirique sur l'entraînement des transformateurs vision-langage bout-en-bout | Articles de recherche récents | HyperAI