Transformateur à mémoire mêlée pour la génération de légendes d'images

Les architectures basées sur les transformateurs représentent l’état de l’art dans les tâches de modélisation de séquences telles que la traduction automatique et la compréhension du langage. Leur application dans des contextes multi-modaux, comme la génération de légendes d’images, reste toutefois largement sous-exploree. Dans un but de combler ce manque, nous présentons M² — un Transformer à mémoire en maillage pour la génération de légendes d’images. Cette architecture améliore à la fois l’encodage d’images et la génération de langage : elle apprend une représentation multi-niveaux des relations entre les régions d’une image en intégrant des connaissances a priori apprises, et utilise une connectivité de type maillage lors de la phase de décodage afin d’exploiter efficacement les caractéristiques de bas et de haut niveau. Expérimentalement, nous évaluons les performances du modèle M² ainsi que celles de divers modèles entièrement attentifs, en les comparant à des modèles récurrents. Sur le jeu de données COCO, notre approche atteint un nouveau record d’état de l’art, tant dans les configurations à modèle unique que dans celles à ensemble, sur le split de test « Karpathy » ainsi que sur le serveur de test en ligne. Nous évaluons également ses performances lors de la description d’objets non présents dans l’ensemble d’apprentissage. Les modèles entraînés ainsi que le code source permettant de reproduire les expériences sont disponibles publiquement à l’adresse suivante : https://github.com/aimagelab/meshed-memory-transformer.