HyperAIHyperAI

Command Palette

Search for a command to run...

Image comme une langue étrangère : Préformation BEiT pour toutes les tâches visuelles et linguistiques visuelles

Wenhui Wang∗, Hangbo Bao∗, Li Dong∗, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei†

Résumé

Une grande convergence entre le langage, la vision et l'entraînement multimodal est en train d'émerger. Dans ce travail, nous présentons un modèle fondamental multimodal général BEiT-3, qui atteint des performances de transfert de pointe tant pour les tâches de vision que pour les tâches de vision-langage. Plus précisément, nous avançons cette grande convergence sous trois aspects : l'architecture du backbone, la tâche d'entraînement et l'augmentation de la taille du modèle. Nous introduisons les Transformers Multiway pour une modélisation générale, où l'architecture modulaire permet à la fois une fusion profonde et un codage spécifique à chaque modalité. Sur la base du backbone partagé, nous effectuons une modélisation masquée de la « langue » sur les images (Imglish), les textes (anglais) et les paires image-texte (« phrases parallèles ») de manière unifiée. Les résultats expérimentaux montrent que BEiT-3 obtient des performances de pointe en détection d'objets (COCO), segmentation sémantique (ADE20K), classification d'images (ImageNet), raisonnement visuel (NLVR2), réponse à des questions visuelles (VQAv2), légendage d'images (COCO) et recherche multimodale croisée (Flickr30K, COCO).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp