HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 20 heures

Exploration du transfert d'information MLLM-Diffusion avec MetaCanvas

Exploration du transfert d'information MLLM-Diffusion avec MetaCanvas

Résumé

L’apprentissage multimodal a connu un progrès rapide dans la compréhension visuelle, principalement grâce aux modèles de langage à grande échelle multimodaux (MLLM) qui utilisent des modèles de langage puissants comme cœurs cognitifs. En revanche, dans la génération visuelle, ces modèles puissants sont généralement réduits à des encodeurs de texte globaux pour les modèles de diffusion, laissant une grande partie de leurs capacités de raisonnement et de planification inutilisées. Cela crée un écart : les MLLM actuels peuvent analyser des dispositions complexes, des attributs et des scènes riches en connaissances, mais peinent à générer des images ou des vidéos avec un contrôle aussi précis et structuré. Nous proposons MetaCanvas, un cadre léger qui permet aux MLLM de raisonner et de planifier directement dans des espaces latents spatiaux et spatio-temporels, tout en s’interfaçant étroitement avec les générateurs de diffusion. Nous implémentons empiriquement MetaCanvas sur trois architectures différentes de modèles de diffusion et l’évaluons sur six tâches, incluant la génération d’image à partir de texte, la génération de vidéo à partir de texte ou d’image, l’édition d’image ou de vidéo, ainsi que la génération de vidéo en contexte, chacune exigeant des dispositions précises, une liaison robuste des attributs et un contrôle exigeant en raisonnement. MetaCanvas surpasse de manière cohérente les méthodes de conditionnement global, suggérant que traiter les MLLM comme des planificateurs dans l’espace latent constitue une voie prometteuse pour réduire l’écart entre la compréhension et la génération multimodales.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp