Pré-entraînement Vision-Langue de Grossière à Fine avec Fusion dans le Backbone

Le pré-entraînement vision-langage (VL) a récemment suscité une attention considérable. Cependant, la plupart des approches existantes de pré-entraînement de bout en bout visent soit à résoudre des tâches VL telles que la recherche d'images et de textes, la réponse aux questions visuelles (VQA) et la légendage d'images qui testent la compréhension de haut niveau des images, soit à cibler la compréhension au niveau régional pour des tâches comme l'ancrage de phrases et la détection d'objets. Nous présentons FIBER (Fusion-In-the-Backbone-based transformER), une nouvelle architecture de modèle VL capable de gérer ces deux types de tâches sans heurts. Au lieu d'avoir des couches de transformateur dédiées pour la fusion après les backbones unimodaux, FIBER pousse la fusion multimodale plus profondément dans le modèle en insérant une attention croisée dans les backbones d'image et de texte, ce qui apporte des gains en termes de mémoire et de performance. De plus, contrairement aux travaux précédents qui sont soit uniquement pré-entraînés sur des données image-texte, soit sur des données fines avec des annotations au niveau des boîtes, nous proposons une stratégie de pré-entraînement en deux étapes qui utilise efficacement ces deux types de données : (i) un pré-entraînement grossier basé sur des données image-texte ; suivi par (ii) un pré-entraînement fin basé sur des données image-texte-boîte. Nous menons des expériences exhaustives sur une large gamme de tâches VL, allant du VQA, au légendage d'images et à la recherche, jusqu'à l'ancrage de phrases, la compréhension d'expressions référentielles et la détection d'objets. En utilisant une fusion multimodale profonde couplée à un pré-entraînement en deux étapes, FIBER offre des améliorations constantes des performances par rapport à des baselines solides sur toutes les tâches, surpassant souvent les méthodes utilisant plusieurs ordres de grandeur plus de données. Le code est disponible à l'adresse https://github.com/microsoft/FIBER.