il y a 16 jours

Génération n'importe quel vers n'importe quel par diffusion composée

Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal

Résumé

Nous présentons Composable Diffusion (CoDi), un nouveau modèle génératif capable de produire toute combinaison de modalités de sortie — telles que le langage, l’image, la vidéo ou l’audio — à partir de toute combinaison de modalités d’entrée. Contrairement aux systèmes existants de génération par IA, CoDi peut générer plusieurs modalités en parallèle, et son entrée n’est pas limitée à un sous-ensemble de modalités comme le texte ou l’image. Malgré l’absence de jeux de données d’entraînement pour de nombreuses combinaisons de modalités, nous proposons d’aligner les modalités à la fois dans l’espace d’entrée et dans l’espace de sortie. Cela permet à CoDi de s’adapter librement à n’importe quelle combinaison d’entrée et de générer n’importe quel ensemble de modalités, même si celles-ci n’ont pas été présentes dans les données d’entraînement. CoDi repose sur une stratégie novatrice de génération composable, qui consiste à construire un espace multimodal partagé en établissant un alignement au cours du processus de diffusion, permettant ainsi la génération synchronisée de modalités intriquées, comme une vidéo et un audio parfaitement alignés temporellement. Très personnalisable et flexible, CoDi atteint une qualité élevée dans la génération conjointe de modalités, et dépasse ou égale l’état de l’art unimodal pour la synthèse de modalités individuelles. La page du projet, incluant des démonstrations et le code source, est disponible à l’adresse suivante : https://codi-gen.github.io