HyperAIHyperAI

Command Palette

Search for a command to run...

Génération n'importe quel vers n'importe quel par diffusion composée

Zineng Tang Ziyi Yang Chenguang Zhu Michael Zeng Mohit Bansal

Résumé

Nous présentons Composable Diffusion (CoDi), un nouveau modèle génératif capable de produire toute combinaison de modalités de sortie — telles que le langage, l’image, la vidéo ou l’audio — à partir de toute combinaison de modalités d’entrée. Contrairement aux systèmes existants de génération par IA, CoDi peut générer plusieurs modalités en parallèle, et son entrée n’est pas limitée à un sous-ensemble de modalités comme le texte ou l’image. Malgré l’absence de jeux de données d’entraînement pour de nombreuses combinaisons de modalités, nous proposons d’aligner les modalités à la fois dans l’espace d’entrée et dans l’espace de sortie. Cela permet à CoDi de s’adapter librement à n’importe quelle combinaison d’entrée et de générer n’importe quel ensemble de modalités, même si celles-ci n’ont pas été présentes dans les données d’entraînement. CoDi repose sur une stratégie novatrice de génération composable, qui consiste à construire un espace multimodal partagé en établissant un alignement au cours du processus de diffusion, permettant ainsi la génération synchronisée de modalités intriquées, comme une vidéo et un audio parfaitement alignés temporellement. Très personnalisable et flexible, CoDi atteint une qualité élevée dans la génération conjointe de modalités, et dépasse ou égale l’état de l’art unimodal pour la synthèse de modalités individuelles. La page du projet, incluant des démonstrations et le code source, est disponible à l’adresse suivante : https://codi-gen.github.io


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp