LaDiC : Les modèles de diffusion sont-ils vraiment inférieurs aux modèles autoregressifs pour la génération d’image à texte ?

Les modèles de diffusion ont fait preuve de capacités remarquables dans la génération d’images à partir de texte. Toutefois, leur performance en génération de texte à partir d’images, notamment dans la tâche de captioning d’images, reste inférieure à celle des modèles auto-régressifs (AR), ce qui remet en question leur adéquation pour de telles tâches. Dans ce travail, nous revisitons les modèles de diffusion, en mettant en évidence leur capacité à modéliser le contexte de manière holistique ainsi qu’à effectuer une décodage en parallèle. Grâce à ces avantages, les modèles de diffusion peuvent atténuer les limitations intrinsèques des méthodes AR, telles que la lenteur de l’inférence, la propagation d’erreurs et les contraintes unidirectionnelles. Par ailleurs, nous identifions l’infériorité relative des modèles de diffusion, due à l’absence d’un espace latent efficace pour l’alignement entre images et textes, ainsi qu’au décalage entre les processus de diffusion continus et les données textuelles discrètes. En réponse, nous proposons une nouvelle architecture, LaDiC, qui utilise un BERT fractionné afin de créer un espace latent dédié aux légendes et intègre un module de régularisation pour gérer les longueurs variables des textes. Notre cadre inclut également un diffuser pour la conversion sémantique d’images en texte, ainsi qu’une technique Back&Refine permettant d’améliorer l’interactivité entre les tokens pendant l’inférence. LaDiC atteint des performances de pointe parmi les méthodes basées sur la diffusion sur le jeu de données MS COCO, avec des scores respectifs de 38,2 BLEU@4 et 126,2 CIDEr, démontrant une excellente efficacité sans recours à un pré-entraînement ni à des modules auxiliaires. Ces résultats indiquent une compétitivité forte par rapport aux modèles AR, révélant ainsi un potentiel jusque-là sous-exploité des modèles de diffusion dans la génération de texte à partir d’images.