HyperAIHyperAI

Command Palette

Search for a command to run...

vor 22 Tagen

Code2Video: Ein codezentriertes Paradigma für die Generierung von Bildungs-Videos

Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

Code2Video: Ein codezentriertes Paradigma für die Generierung von Bildungs-Videos

Abstract

Obwohl neuere generative Modelle Fortschritte bei der Synthese von Videobildern im Pixelraum erzielen, sind sie weiterhin auf die Erzeugung professioneller Bildungsvideos beschränkt, die disziplinäres Wissen, präzise visuelle Strukturen und kohärente Übergänge erfordern – eine Einschränkung, die ihre Anwendbarkeit in pädagogischen Kontexten beeinträchtigt. Intuitiv lassen sich solche Anforderungen besser durch die Manipulation einer renderbaren Umgebung erfüllen, die über logische Befehle (z. B. Code) explizit gesteuert werden kann. In dieser Arbeit stellen wir Code2Video vor, einen codezentrierten Agenten-Frame­work zur Erzeugung von Bildungsvideos mittels ausführbaren Python-Code. Der Framework besteht aus drei kooperierenden Agenten: (i) dem Planner, der den Lehrinhalt in zeitlich kohärente Abläufe strukturiert und entsprechende visuelle Assets vorbereitet; (ii) dem Coder, der strukturierte Anweisungen in ausführbaren Python-Code umwandelt und dabei eine bereichsgeleitete Auto-Fix-Funktion einsetzt, um die Effizienz zu steigern; und (iii) dem Critic, der visuelle Sprachmodelle (VLM) mit visuellen Anker-Prompts nutzt, um die räumliche Anordnung zu verfeinern und Klarheit sicherzustellen. Zur systematischen Evaluation haben wir MMMC aufgebaut, eine Benchmark aus professionell produzierten, disziplinspezifischen Bildungsvideos. Wir evaluieren MMMC anhand verschiedener Dimensionen, darunter VLM-as-a-Judge-Scores für Ästhetik, Code-Effizienz und insbesondere TeachQuiz, einem neuartigen End-to-End-Maß, das misst, wie gut ein VLM nach dem Unlernen Wissen durch Betrachten der generierten Videos wiedererlangen kann. Unsere Ergebnisse belegen das Potenzial von Code2Video als skalierbare, interpretierbare und steuerbare Methode, die eine Verbesserung um 40 % gegenüber direkter Code-Generierung erzielt und Videos erzeugt, die den von Menschen erstellten Tutorials entsprechen. Der Code und die Datensätze sind unter dieser URL verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Code2Video: Ein codezentriertes Paradigma für die Generierung von Bildungs-Videos | Forschungsarbeiten | HyperAI