VL-BERT : Pré-entraînement de représentations visuelles et linguistiques génériques

Nous présentons une nouvelle représentation générique pré-entraînable pour les tâches visuo-linguistiques, appelée Visual-Linguistic BERT (VL-BERT pour abréger). VL-BERT utilise le modèle Transformer, simple mais puissant, comme base et l'étend pour accepter à la fois des caractéristiques plongées (embedded features) visuelles et linguistiques en entrée. Dans ce modèle, chaque élément de l'entrée est soit un mot de la phrase d'entrée, soit une région d'intérêt (RoI) de l'image d'entrée. Il est conçu pour s'adapter à la plupart des tâches visuo-linguistiques en aval. Pour exploiter au mieux cette représentation générique, nous pré-entraînons VL-BERT sur le jeu de données massif Conceptual Captions, ainsi que sur un corpus textuel uniquement. Une analyse empirique approfondie montre que la procédure de pré-entraînement peut mieux aligner les indices visuels et linguistiques et bénéficier aux tâches en aval, telles que la raisonnement visuel sur le sens commun, la réponse à des questions visuelles et la compréhension des expressions référentielles. Il convient de noter que VL-BERT a obtenu la première place parmi les modèles individuels du classement du benchmark VCR. Le code source est disponible à l'adresse \url{https://github.com/jackroos/VL-BERT}.