Unification des tâches vision-langage par génération de texte

Les méthodes existantes d'apprentissage vision-langage exigent généralement la conception d'architectures et d'objectifs spécifiques à chaque tâche. Par exemple, un classificateur à plusieurs étiquettes pour la réponse à des questions visuelles, un scoreur de régions pour la compréhension d'expressions référentielles, ou encore un décodeur linguistique pour la génération de légendes d'images, etc. Afin de réduire ces complexités, nous proposons dans ce travail un cadre unifié qui apprend différentes tâches au sein d'une seule architecture, avec le même objectif de modélisation linguistique, à savoir la génération textuelle conditionnelle multimodale. Dans ce cadre, nos modèles apprennent à générer des étiquettes sous forme de texte à partir d'entrées visuelles et textuelles. Sur 7 benchmarks populaires d'apprentissage vision-langage, incluant la réponse à des questions visuelles, la compréhension d'expressions référentielles et le raisonnement visuel communautaire — des tâches qui ont auparavant été modélisées comme des tâches discriminatives — notre approche générative (basée sur une architecture unifiée unique) atteint des performances comparables aux meilleurs modèles récents spécifiques à chaque tâche. En outre, notre approche générative démontre une meilleure capacité de généralisation face à des questions ayant des réponses rares. Nous montrons également que notre cadre permet l'apprentissage multi-tâches dans une seule architecture, avec un seul ensemble de paramètres, tout en atteignant des performances similaires à celles des modèles uniques optimisés séparément pour chaque tâche. Notre code est disponible publiquement à l'adresse suivante : https://github.com/j-min/VL-T5