HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration du transfert d'information MLLM-Diffusion avec MetaCanvas

Résumé

L’apprentissage multimodal a connu un progrès rapide dans la compréhension visuelle, principalement grâce aux modèles de langage à grande échelle multimodaux (MLLM) qui utilisent des modèles de langage puissants comme cœurs cognitifs. En revanche, dans la génération visuelle, ces modèles puissants sont généralement réduits à des encodeurs de texte globaux pour les modèles de diffusion, laissant une grande partie de leurs capacités de raisonnement et de planification inutilisées. Cela crée un écart : les MLLM actuels peuvent analyser des dispositions complexes, des attributs et des scènes riches en connaissances, mais peinent à générer des images ou des vidéos avec un contrôle aussi précis et structuré. Nous proposons MetaCanvas, un cadre léger qui permet aux MLLM de raisonner et de planifier directement dans des espaces latents spatiaux et spatio-temporels, tout en s’interfaçant étroitement avec les générateurs de diffusion. Nous implémentons empiriquement MetaCanvas sur trois architectures différentes de modèles de diffusion et l’évaluons sur six tâches, incluant la génération d’image à partir de texte, la génération de vidéo à partir de texte ou d’image, l’édition d’image ou de vidéo, ainsi que la génération de vidéo en contexte, chacune exigeant des dispositions précises, une liaison robuste des attributs et un contrôle exigeant en raisonnement. MetaCanvas surpasse de manière cohérente les méthodes de conditionnement global, suggérant que traiter les MLLM comme des planificateurs dans l’espace latent constitue une voie prometteuse pour réduire l’écart entre la compréhension et la génération multimodales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Exploration du transfert d'information MLLM-Diffusion avec MetaCanvas | Articles | HyperAI