L-Verse : Génération Bidirectionnelle entre Image et Texte

Au-delà de l'apprentissage des interactions à longue portée du langage naturel, les transformateurs sont en train de devenir la norme de facto pour de nombreuses tâches visuelles grâce à leur puissance et leur évolutivité. En particulier, dans le cadre des tâches intermodales entre image et texte, les autoencodeurs variationnels vectoriels quantifiés (VQ-VAEs) sont largement utilisés pour transformer une image brute en RGB en une séquence de vecteurs de caractéristiques. Pour exploiter au mieux la corrélation entre image et texte, nous proposons L-Verse, une nouvelle architecture composée d'un autoencodeur variationnel augmenté de caractéristiques (AugVAE) et d'un transformateur autorégressif bidirectionnel (BiART) pour la génération d'images à partir de texte et vice versa. Notre AugVAE affiche des performances de reconstruction d'avant-garde sur l'ensemble de validation ImageNet1K, tout en montrant une robustesse face aux images inconnues dans le monde réel. Contrairement à d'autres modèles, le BiART peut distinguer entre une image (ou un texte) comme référence conditionnelle et une cible de génération. L-Verse peut être utilisé directement pour la génération d'images à partir de texte ou inversement sans aucun ajustement fin ni cadre supplémentaire de détection d'objets. Dans des expériences quantitatives et qualitatives, L-Verse montre des résultats impressionnants par rapport aux méthodes précédentes tant pour la génération d'images à partir de texte que pour la génération inverse sur MS-COCO Captions. Nous évaluons également l'évolutivité de l'architecture L-Verse sur Conceptual Captions et présentons les premiers résultats d'apprentissage bidirectionnel des représentations vision-langage dans un domaine général.