VisualBERT : Une ligne de base simple et performante pour la vision et le langage

Nous proposons VisualBERT, un cadre simple et flexible pour modéliser une large gamme de tâches combinant la vision et le langage. VisualBERT est composé d'une pile de couches Transformer qui alignent implicitement les éléments d'un texte d'entrée et les régions d'une image associée grâce à l'auto-attention. Nous proposons également deux objectifs de modèle de langage ancrés visuellement pour préformer l'entraînement de VisualBERT sur des données de légendes d'images. Des expériences menées sur quatre tâches combinant la vision et le langage, dont VQA (Visual Question Answering), VCR (Visual Commonsense Reasoning), NLVR2 (Natural Language for Visual Reasoning 2) et Flickr30K, montrent que VisualBERT surpasse ou se compare favorablement aux modèles de pointe tout en étant considérablement plus simple. Une analyse supplémentaire démontre que VisualBERT peut associer des éléments du langage à des régions d'image sans aucune supervision explicite et qu'il est même sensible aux relations syntaxiques, en suivant par exemple les associations entre les verbes et les régions d'image correspondant à leurs arguments.