EMMA : Compréhension, génération et édition multimodales efficaces grâce à une architecture unifiée
EMMA : Compréhension, génération et édition multimodales efficaces grâce à une architecture unifiée
Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Résumé
Nous proposons EMMA, une architecture efficace et unifiée pour la compréhension, la génération et l’édition multimodales. En particulier, EMMA se compose principalement de quatre composants clés : 1) un autoencodeur efficace présentant un taux de compression de 32×, qui réduit considérablement le nombre de tokens requis pour la génération ; ce mécanisme garantit également un équilibre d’apprentissage entre les tâches de compréhension et de génération en appliquant le même taux de compression aux images. 2) Une concaténation par canal au lieu d’une concaténation par token entre les tokens de compréhension visuelle et ceux de génération, ce qui permet une réduction supplémentaire du nombre de tokens visuels dans les architectures unifiées. 3) Un réseau partagé et déconnecté, permettant des améliorations mutuelles entre les tâches tout en répondant aux exigences spécifiques de modélisation de chaque tâche. 4) Un mécanisme de mélange d’experts adopté pour l’encodeur de compréhension visuelle, qui améliore substantiellement les capacités perceptives avec une augmentation négligeable du nombre de paramètres. Des expériences étendues montrent qu’EMMA-4B surpasse significativement les approches unifiées multimodales de pointe (par exemple, BAGEL-7B) en termes d’efficacité et de performance, tout en atteignant des résultats compétitifs par rapport aux experts récents en compréhension et génération multimodales (tels que Qwen3-VL et Qwen-Image). Nous pensons qu’EMMA établit une base solide pour le développement futur des architectures multimodales unifiées.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.