22 天前

Code2Video：一种以代码为中心的教育视频生成范式

Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

摘要

尽管近期的生成模型在像素空间视频合成方面取得了进展，但在生成专业级教育视频方面仍存在局限。这类视频需要融合学科知识、精确的视觉结构以及连贯的转场效果，而现有模型难以满足这些要求，因而限制了其在教育场景中的实际应用。直观来看，通过操控可渲染环境来实现上述需求更为合适，因为该环境可通过逻辑指令（如代码）进行显式控制。为此，本文提出 Code2Video——一种以代码为核心的智能体框架，旨在通过可执行的 Python 代码生成教育视频。该框架包含三个协同工作的智能体：（i）规划器（Planner），负责将课程内容组织为时间上连贯的叙事流，并准备相应的视觉素材；（ii）编码器（Coder），将结构化指令转化为可执行的 Python 代码，并引入基于作用域的自动修复机制以提升生成效率；（iii）评判器（Critic），利用视觉-语言模型（VLM）结合视觉锚点提示，对画面布局进行精细化调整，确保内容清晰可读。为支持系统的评估，我们构建了 MMMC——一个由专业制作、领域特定的教育视频组成的基准数据集。我们在多个维度对 MMMC 进行评估，包括 VLM 作为裁判的美学评分、代码生成效率，以及尤为关键的 TeachQuiz 指标：这是一种新型端到端评估指标，用于衡量在知识“遗忘”后，VLM 通过观看生成视频能否有效恢复知识的能力。实验结果表明，Code2Video 是一种具备可扩展性、可解释性和可控性的高效方法，相比直接代码生成，性能提升达 40%，生成的视频质量已接近人工制作的教学教程。相关代码与数据集已公开，详见本文链接。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Code2Video：一种以代码为中心的教育视频生成范式

Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

摘要

用 AI 构建 AI

Hyper Newsletters