HyperAIHyperAI

Command Palette

Search for a command to run...

L'alignement de reconstruction améliore les modèles multimodaux unifiés

Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

Résumé

Les modèles multimodaux unifiés (UMMs) intègrent, au sein d'une même architecture, la compréhension visuelle et la génération. Toutefois, l'entraînement classique repose sur des paires image-texte (ou séquences), dont les légendes sont généralement peu riches et omettent souvent des détails visuels fins — même lorsqu’elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons Reconstruction Alignment (RecA), une méthode d’entraînement postérieur efficace en ressources, qui exploite les embeddings du module d’encodage de compréhension visuelle comme des « prompts textuels » denses, offrant ainsi une supervision riche sans nécessiter de légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l’optimise pour reconstruire l’image d’entrée à l’aide d’une perte de reconstruction auto-supervisée, réalignant ainsi de manière efficace compréhension et génération. Malgré sa simplicité, RecA s’applique de manière générale : sur des UMMs autoregressifs, masqués autoregressifs et basés sur la diffusion, elle améliore de manière cohérente la fidélité de la génération et de l’édition. Avec seulement 27 heures de calcul sur GPU, l’entraînement postérieur via RecA améliore de manière significative les performances de génération d’images sur GenEval (passant de 0,73 à 0,90) et DPGBench (de 80,93 à 88,15), tout en renforçant également les résultats sur les benchmarks d’édition (ImgEdit : de 3,38 à 3,75 ; GEdit : de 6,94 à 7,25). Notamment, RecA dépasse des modèles open-source bien plus volumineux et s’applique de façon large à diverses architectures d’UMM, établissant ainsi une stratégie d’alignement post-entraînement efficace et générale pour les UMMs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp