Command Palette
Search for a command to run...
Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

摘要
尽管近期的生成模型在像素空间视频合成方面取得了进展,但在生成专业级教育视频方面仍存在局限。这类视频需要融合学科知识、精确的视觉结构以及连贯的转场效果,而现有模型难以满足这些要求,因而限制了其在教育场景中的实际应用。直观来看,通过操控可渲染环境来实现上述需求更为合适,因为该环境可通过逻辑指令(如代码)进行显式控制。为此,本文提出 Code2Video——一种以代码为核心的智能体框架,旨在通过可执行的 Python 代码生成教育视频。该框架包含三个协同工作的智能体:(i)规划器(Planner),负责将课程内容组织为时间上连贯的叙事流,并准备相应的视觉素材;(ii)编码器(Coder),将结构化指令转化为可执行的 Python 代码,并引入基于作用域的自动修复机制以提升生成效率;(iii)评判器(Critic),利用视觉-语言模型(VLM)结合视觉锚点提示,对画面布局进行精细化调整,确保内容清晰可读。为支持系统的评估,我们构建了 MMMC——一个由专业制作、领域特定的教育视频组成的基准数据集。我们在多个维度对 MMMC 进行评估,包括 VLM 作为裁判的美学评分、代码生成效率,以及尤为关键的 TeachQuiz 指标:这是一种新型端到端评估指标,用于衡量在知识“遗忘”后,VLM 通过观看生成视频能否有效恢复知识的能力。实验结果表明,Code2Video 是一种具备可扩展性、可解释性和可控性的高效方法,相比直接代码生成,性能提升达 40%,生成的视频质量已接近人工制作的教学教程。相关代码与数据集已公开,详见本文链接。