Command Palette
Search for a command to run...
Édition basée sur les nœuds pour la génération multimodale de texte, audio, image et vidéo
Alexander Htet Kyaw Lenin Ravindranath Sivalingam

Résumé
Nous présentons un système de narration basé sur les nœuds pour la génération de contenus multimodaux. Ce système représente les récits sous forme de graphes de nœuds pouvant être étendus, modifiés et affinés itérativement grâce à des éditions directes par l’utilisateur et à des instructions en langage naturel. Chaque nœud peut intégrer du texte, des images, de l’audio et de la vidéo, permettant ainsi aux créateurs de composer des récits multimodaux. Un agent de sélection de tâches orchestre les différentes tâches génératives spécialisées, chargées respectivement de la génération de récits, du raisonnement sur la structure des nœuds, de la mise en forme des diagrammes de nœuds et de la génération de contexte. L’interface permet une édition ciblée des nœuds individuels, une génération automatique de ramifications pour des lignes narratives parallèles, ainsi qu’un affinement itératif basé sur les nœuds. Nos résultats montrent que l’édition basée sur les nœuds permet un contrôle précis de la structure narrative ainsi que la génération itérative de textes, d’images, d’audio et de vidéos. Nous rapportons des résultats quantitatifs sur la génération automatique de plans de récits ainsi que des observations qualitatives sur les flux de travail d’édition. Enfin, nous discutons des limites actuelles du système, notamment sa capacité à évoluer à des récits plus longs et à maintenir la cohérence entre plusieurs nœuds, et esquisons les perspectives futures vers des outils d’intelligence artificielle créative centrés sur l’humain et intégrant une interaction continue avec l’utilisateur.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.