il y a 8 mois

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng

Résumé

Le pré-entraînement vision-langage (VL) a récemment suscité une attention considérable. Cependant, la plupart des approches existantes de pré-entraînement de bout en bout visent soit à résoudre des tâches VL telles que la recherche d'images et de textes, la réponse aux questions visuelles (VQA) et la légendage d'images qui testent la compréhension de haut niveau des images, soit à cibler la compréhension au niveau régional pour des tâches comme l'ancrage de phrases et la détection d'objets. Nous présentons FIBER (Fusion-In-the-Backbone-based transformER), une nouvelle architecture de modèle VL capable de gérer ces deux types de tâches sans heurts. Au lieu d'avoir des couches de transformateur dédiées pour la fusion après les backbones unimodaux, FIBER pousse la fusion multimodale plus profondément dans le modèle en insérant une attention croisée dans les backbones d'image et de texte, ce qui apporte des gains en termes de mémoire et de performance. De plus, contrairement aux travaux précédents qui sont soit uniquement pré-entraînés sur des données image-texte, soit sur des données fines avec des annotations au niveau des boîtes, nous proposons une stratégie de pré-entraînement en deux étapes qui utilise efficacement ces deux types de données : (i) un pré-entraînement grossier basé sur des données image-texte ; suivi par (ii) un pré-entraînement fin basé sur des données image-texte-boîte. Nous menons des expériences exhaustives sur une large gamme de tâches VL, allant du VQA, au légendage d'images et à la recherche, jusqu'à l'ancrage de phrases, la compréhension d'expressions référentielles et la détection d'objets. En utilisant une fusion multimodale profonde couplée à un pré-entraînement en deux étapes, FIBER offre des améliorations constantes des performances par rapport à des baselines solides sur toutes les tâches, surpassant souvent les méthodes utilisant plusieurs ordres de grandeur plus de données. Le code est disponible à l'adresse https://github.com/microsoft/FIBER.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Pré-entraînement Vision-Langue de Grossière à Fine avec Fusion dans le Backbone | Articles | HyperAI

Command Palette

Pré-entraînement Vision-Langue de Grossière à Fine avec Fusion dans le Backbone

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Pré-entraînement Vision-Langue de Grossière à Fine avec Fusion dans le Backbone

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Pré-entraînement Vision-Langue de Grossière à Fine avec Fusion dans le Backbone

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng

Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang Linjie Li Zicheng Liu Ce Liu Yann LeCun Nanyun Peng