MaMMUT : Une Architecture Simple pour l'Apprentissage Conjoint des Tâches Multimodales

Le développement des modèles linguistiques s’est progressivement orienté vers des architectures à décodeur unique, au détriment des modèles encodage-décodage traditionnels. Par ailleurs, nous constatons que les deux tâches multimodales les plus courantes — les tâches génératives et les tâches contrastives — sont difficiles à intégrer dans une même architecture, et nécessitent en outre des adaptations spécifiques pour les tâches en aval. Nous proposons un nouveau paradigme d’entraînement basé sur un modèle à décodeur unique pour les tâches multimodales, qui s’avère étonnamment efficace pour l’apprentissage conjoint de ces tâches vision-langage disparates. Ce résultat est atteint grâce à un modèle simple, nommé MaMMUT, composé d’un seul encodeur visuel et d’un décodeur de texte. Il permet d’accommoder à la fois l’apprentissage contrastif et génératif grâce à une approche originale en deux passes appliquée au décodeur de texte. Nous démontrons que l’apprentissage conjoint de ces objectifs diversifiés est simple, efficace, et maximise le partage de poids du modèle entre ces différentes tâches. En outre, la même architecture permet des extensions naturelles vers des tâches d’identification d’objets à vocabulaire ouvert et des tâches vidéo-langage. Le modèle traite une large gamme de tâches tout en restant modeste en capacité. Il atteint l’état de l’art sur les tâches de recherche image-texte et texte-image, ainsi que sur la question-réponse vidéo et la détection à vocabulaire ouvert, surpassant des modèles fondamentaux bien plus volumineux et entraînés de manière plus poussée. Il obtient également des résultats très compétitifs sur les tâches de question-réponse vidéo (VQA) et de captioning vidéo, particulièrement compte tenu de sa taille modeste. Des études d’ablation confirment la flexibilité et les avantages de notre approche.