Command Palette
Search for a command to run...
L'alignement de reconstruction améliore les modèles multimodaux unifiés
Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

Résumé
Les modèles multimodaux unifiés (UMMs) intègrent, au sein d'une même architecture, la compréhension visuelle et la génération. Toutefois, l'entraînement classique repose sur des paires image-texte (ou séquences), dont les légendes sont généralement peu riches et omettent souvent des détails visuels fins — même lorsqu’elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons Reconstruction Alignment (RecA), une méthode d’entraînement postérieur efficace en ressources, qui exploite les embeddings du module d’encodage de compréhension visuelle comme des « prompts textuels » denses, offrant ainsi une supervision riche sans nécessiter de légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l’optimise pour reconstruire l’image d’entrée à l’aide d’une perte de reconstruction auto-supervisée, réalignant ainsi de manière efficace compréhension et génération. Malgré sa simplicité, RecA s’applique de manière générale : sur des UMMs autoregressifs, masqués autoregressifs et basés sur la diffusion, elle améliore de manière cohérente la fidélité de la génération et de l’édition. Avec seulement 27 heures de calcul sur GPU, l’entraînement postérieur via RecA améliore de manière significative les performances de génération d’images sur GenEval (passant de 0,73 à 0,90) et DPGBench (de 80,93 à 88,15), tout en renforçant également les résultats sur les benchmarks d’édition (ImgEdit : de 3,38 à 3,75 ; GEdit : de 6,94 à 7,25). Notamment, RecA dépasse des modèles open-source bien plus volumineux et s’applique de façon large à diverses architectures d’UMM, établissant ainsi une stratégie d’alignement post-entraînement efficace et générale pour les UMMs.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.