Knotenbasierte Bearbeitung für multimodale Generierung von Text, Audio, Bild und Video
Alexander Htet Kyaw Lenin Ravindranath Sivalingam

Abstract
Wir stellen ein knotenbasiertes Erzählungssystem für die Generierung multimodaler Inhalte vor. Das System stellt Geschichten als Graphen aus Knoten dar, die durch direkte Benutzerbearbeitungen und natürlichsprachliche Eingaben erweitert, bearbeitet und iterativ verfeinert werden können. Jeder Knoten kann Text, Bilder, Audio und Video integrieren, wodurch Ersteller multimodale Erzählungen erstellen können. Ein Aufgabenauswahl-Agent leitet zwischen spezialisierten generativen Aufgaben hin und her, die die Erstellung von Geschichten, die Schlussfolgerung zur Knotenstruktur, die Formatierung von Knotendiagrammen sowie die Kontextgenerierung bewältigen. Die Benutzeroberfläche unterstützt gezielte Bearbeitung einzelner Knoten, automatische Verzweigungen für parallele Handlungsstränge sowie knotenbasierte iterative Verbesserung. Unsere Ergebnisse zeigen, dass die knotenbasierte Bearbeitung eine präzise Kontrolle über die Erzählstruktur sowie die iterative Generierung von Text, Bildern, Audio und Video ermöglicht. Wir berichten über quantitative Ergebnisse zur automatischen Erstellung von Geschichtsübersichten sowie qualitative Beobachtungen zu Bearbeitungsworkflows. Abschließend diskutieren wir aktuelle Einschränkungen, wie die Skalierbarkeit auf längere Geschichten und die Konsistenz über mehrere Knoten hinweg, und skizzieren zukünftige Arbeiten im Bereich menschlich-in-the-loop- und nutzerzentrierter kreativer KI-Tools.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.