Adaptation transitoire de modèles pré-entraînés pour le récit visuel

Les modèles précédents pour les tâches de génération de langage à partir de la vision préentraînent généralement un encodeur visuel et un générateur de langage dans leurs domaines respectifs, puis les ajustent conjointement sur la tâche cible. Toutefois, cette approche de transfert direct peut souffrir d’un désaccord entre la spécificité visuelle et la fluidité linguistique, car ces deux composants sont souvent entraînés séparément sur de grandes corpora de données visuelles et textuelles, sans point de convergence commun. Dans ce travail, nous affirmons qu’une étape d’adaptation transitoire est nécessaire entre le préentraînement et l’ajustement fin pour harmoniser l’encodeur visuel et le modèle de langage afin de relever des tâches cibles complexes, telles que le récit visuel. Nous proposons une nouvelle approche nommée Adaptation Transitoire des Modèles Préentraînés (TAPM), qui adapte mutuellement les modules multimodaux à l’aide d’une tâche d’alignement simplifiée basée uniquement sur les entrées visuelles, sans nécessiter d’étiquettes textuelles. À travers des expériences étendues, nous démontrons que cette étape d’adaptation améliore significativement les performances de plusieurs modèles de langage sur des tâches de génération de légendes séquentielles pour vidéos et images. Nous atteignons de nouveaux résultats optimaux (state-of-the-art) tant sur les métriques linguistiques que sur l’évaluation humaine dans la tâche de description multi-phrases du LSMDC 2019 et dans la tâche de récit d’images du VIST. Nos expériences révèlent que cette amélioration de la qualité des légendes ne dépend pas du choix spécifique du modèle de langage utilisé.