Command Palette
Search for a command to run...
Code2Video: Ein codezentriertes Paradigma für die Generierung von Bildungs-Videos
Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

Abstract
Obwohl neuere generative Modelle Fortschritte bei der Synthese von Videobildern im Pixelraum erzielen, sind sie weiterhin auf die Erzeugung professioneller Bildungsvideos beschränkt, die disziplinäres Wissen, präzise visuelle Strukturen und kohärente Übergänge erfordern – eine Einschränkung, die ihre Anwendbarkeit in pädagogischen Kontexten beeinträchtigt. Intuitiv lassen sich solche Anforderungen besser durch die Manipulation einer renderbaren Umgebung erfüllen, die über logische Befehle (z. B. Code) explizit gesteuert werden kann. In dieser Arbeit stellen wir Code2Video vor, einen codezentrierten Agenten-Framework zur Erzeugung von Bildungsvideos mittels ausführbaren Python-Code. Der Framework besteht aus drei kooperierenden Agenten: (i) dem Planner, der den Lehrinhalt in zeitlich kohärente Abläufe strukturiert und entsprechende visuelle Assets vorbereitet; (ii) dem Coder, der strukturierte Anweisungen in ausführbaren Python-Code umwandelt und dabei eine bereichsgeleitete Auto-Fix-Funktion einsetzt, um die Effizienz zu steigern; und (iii) dem Critic, der visuelle Sprachmodelle (VLM) mit visuellen Anker-Prompts nutzt, um die räumliche Anordnung zu verfeinern und Klarheit sicherzustellen. Zur systematischen Evaluation haben wir MMMC aufgebaut, eine Benchmark aus professionell produzierten, disziplinspezifischen Bildungsvideos. Wir evaluieren MMMC anhand verschiedener Dimensionen, darunter VLM-as-a-Judge-Scores für Ästhetik, Code-Effizienz und insbesondere TeachQuiz, einem neuartigen End-to-End-Maß, das misst, wie gut ein VLM nach dem Unlernen Wissen durch Betrachten der generierten Videos wiedererlangen kann. Unsere Ergebnisse belegen das Potenzial von Code2Video als skalierbare, interpretierbare und steuerbare Methode, die eine Verbesserung um 40 % gegenüber direkter Code-Generierung erzielt und Videos erzeugt, die den von Menschen erstellten Tutorials entsprechen. Der Code und die Datensätze sind unter dieser URL verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.