il y a 2 mois

Image comme une langue étrangère : Préformation BEiT pour toutes les tâches visuelles et linguistiques visuelles

Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei

Voir les détails de l'article

Image comme une langue étrangère : Préformation BEiT pour toutes les tâches visuelles et linguistiques visuelles

Résumé

Une grande convergence entre le langage, la vision et l'entraînement multimodal est en train d'émerger. Dans ce travail, nous présentons un modèle fondamental multimodal général BEiT-3, qui atteint des performances de transfert de pointe tant pour les tâches de vision que pour les tâches de vision-langage. Plus précisément, nous avançons cette grande convergence sous trois aspects : l'architecture du backbone, la tâche d'entraînement et l'augmentation de la taille du modèle. Nous introduisons les Transformers Multiway pour une modélisation générale, où l'architecture modulaire permet à la fois une fusion profonde et un codage spécifique à chaque modalité. Sur la base du backbone partagé, nous effectuons une modélisation masquée de la « langue » sur les images (Imglish), les textes (anglais) et les paires image-texte (« phrases parallèles ») de manière unifiée. Les résultats expérimentaux montrent que BEiT-3 obtient des performances de pointe en détection d'objets (COCO), segmentation sémantique (ADE20K), classification d'images (ImageNet), raisonnement visuel (NLVR2), réponse à des questions visuelles (VQAv2), légendage d'images (COCO) et recherche multimodale croisée (Flickr30K, COCO).