HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

L'alignement de reconstruction améliore les modèles multimodaux unifiés

Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

L'alignement de reconstruction améliore les modèles multimodaux unifiés

Résumé

Les modèles multimodaux unifiés (UMMs) intègrent, au sein d'une même architecture, la compréhension visuelle et la génération. Toutefois, l'entraînement classique repose sur des paires image-texte (ou séquences), dont les légendes sont généralement peu riches et omettent souvent des détails visuels fins — même lorsqu’elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons Reconstruction Alignment (RecA), une méthode d’entraînement postérieur efficace en ressources, qui exploite les embeddings du module d’encodage de compréhension visuelle comme des « prompts textuels » denses, offrant ainsi une supervision riche sans nécessiter de légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l’optimise pour reconstruire l’image d’entrée à l’aide d’une perte de reconstruction auto-supervisée, réalignant ainsi de manière efficace compréhension et génération. Malgré sa simplicité, RecA s’applique de manière générale : sur des UMMs autoregressifs, masqués autoregressifs et basés sur la diffusion, elle améliore de manière cohérente la fidélité de la génération et de l’édition. Avec seulement 27 heures de calcul sur GPU, l’entraînement postérieur via RecA améliore de manière significative les performances de génération d’images sur GenEval (passant de 0,73 à 0,90) et DPGBench (de 80,93 à 88,15), tout en renforçant également les résultats sur les benchmarks d’édition (ImgEdit : de 3,38 à 3,75 ; GEdit : de 6,94 à 7,25). Notamment, RecA dépasse des modèles open-source bien plus volumineux et s’applique de façon large à diverses architectures d’UMM, établissant ainsi une stratégie d’alignement post-entraînement efficace et générale pour les UMMs.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'alignement de reconstruction améliore les modèles multimodaux unifiés | Articles de recherche | HyperAI