HyperAIHyperAI

Command Palette

Search for a command to run...

vor 19 Tagen

Knotenbasierte Bearbeitung für multimodale Generierung von Text, Audio, Bild und Video

Alexander Htet Kyaw Lenin Ravindranath Sivalingam

Knotenbasierte Bearbeitung für multimodale Generierung von Text, Audio, Bild und Video

Abstract

Wir stellen ein knotenbasiertes Erzählungssystem für die Generierung multimodaler Inhalte vor. Das System stellt Geschichten als Graphen aus Knoten dar, die durch direkte Benutzerbearbeitungen und natürlichsprachliche Eingaben erweitert, bearbeitet und iterativ verfeinert werden können. Jeder Knoten kann Text, Bilder, Audio und Video integrieren, wodurch Ersteller multimodale Erzählungen erstellen können. Ein Aufgabenauswahl-Agent leitet zwischen spezialisierten generativen Aufgaben hin und her, die die Erstellung von Geschichten, die Schlussfolgerung zur Knotenstruktur, die Formatierung von Knotendiagrammen sowie die Kontextgenerierung bewältigen. Die Benutzeroberfläche unterstützt gezielte Bearbeitung einzelner Knoten, automatische Verzweigungen für parallele Handlungsstränge sowie knotenbasierte iterative Verbesserung. Unsere Ergebnisse zeigen, dass die knotenbasierte Bearbeitung eine präzise Kontrolle über die Erzählstruktur sowie die iterative Generierung von Text, Bildern, Audio und Video ermöglicht. Wir berichten über quantitative Ergebnisse zur automatischen Erstellung von Geschichtsübersichten sowie qualitative Beobachtungen zu Bearbeitungsworkflows. Abschließend diskutieren wir aktuelle Einschränkungen, wie die Skalierbarkeit auf längere Geschichten und die Konsistenz über mehrere Knoten hinweg, und skizzieren zukünftige Arbeiten im Bereich menschlich-in-the-loop- und nutzerzentrierter kreativer KI-Tools.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Knotenbasierte Bearbeitung für multimodale Generierung von Text, Audio, Bild und Video | Forschungsarbeiten | HyperAI