Modélisation linguistique multimodale augmentée par la récupération

Les modèles multimodaux récents tels que DALL-E et CM3 ont réalisé des progrès remarquables dans la génération d’images à partir de texte et la génération de texte à partir d’images. Toutefois, ces modèles stockent l’ensemble des connaissances apprises (par exemple, l’apparence de la Tour Eiffel) dans leurs paramètres, ce qui nécessite des modèles de plus en plus volumineux et des jeux de données d’entraînement croissants pour intégrer davantage de connaissances. Afin d’intégrer les connaissances de manière plus évolutif et modulaire, nous proposons un modèle multimodal augmenté par recherche, permettant à un modèle de base (générateur) de faire référence à des textes et images pertinents récupérés par un module de recherche à partir d’une mémoire externe (par exemple, des documents disponibles sur le web). Plus précisément, pour le module de recherche, nous utilisons un modèle CLIP pré-entraîné, tandis que pour le générateur, nous entraînons un Transformer CM3 sur le jeu de données LAION. Le modèle résultant, nommé RA-CM3 (Retrieval-Augmented CM3), est le premier modèle multimodal capable à la fois de rechercher et de générer du texte et des images. Nous démontrons que RA-CM3 surpasse significativement les modèles de référence tels que DALL-E et CM3 sur les tâches de génération d’images et de légendes (amélioration de 12 points en FID et de 17 points en CIDEr sur MS-COCO), tout en nécessitant bien moins de ressources computationnelles pour l’entraînement (moins de 30 % de celles requises par DALL-E). En outre, nous montrons que RA-CM3 présente de nouvelles capacités, telles que la génération fidèle d’images et l’apprentissage multimodal in-context (par exemple, la génération d’images à partir de démonstrations).