Command Palette
Search for a command to run...
Yanzhe Chen Kevin Qinghong Lin Mike Zheng Shou

要約
近年の生成モデルはピクセル空間における動画合成の面で著しい進展を遂げているが、専門的教育動画の生成においては依然として限界が存在する。教育動画は、分野固有の知識、正確な視覚的構造、および一貫したトランジション(遷移)を要求するため、現行のモデルではその応用が教育現場において制限されている。直感的に考えると、こうした要件はレンダラブルな環境を操作することでより適切に実現可能であり、論理的な命令(例:コード)によって明示的に制御できる。本研究では、実行可能なPythonコードを用いて教育動画を生成する、コード中心のエージェントフレームワーク「Code2Video」を提案する。本フレームワークは、以下の3つの協調するエージェントから構成される:(i) Planner(計画者)は講義内容を時間的に整合性のある流れに構造化し、対応する視覚的資産を準備する;(ii) Coder(コーダー)は構造化された指示を実行可能なPythonコードに変換しつつ、範囲をガイドとする自動修正機能を組み込むことで効率性を向上させる;(iii) Critic(批判者)は視覚言語モデル(VLM)を用い、視覚的アングルプロンプトを活用して空間配置を精緻化し、視覚的明確性を確保する。体系的な評価を可能にするため、専門的に制作された分野特化型教育動画を収録したベンチマーク「MMMC」を構築した。MMMCは、VLM-as-a-Judgeによる美的評価スコア、コードの効率性、および特に注目すべき「TeachQuiz」という新規なエンドツーエンド評価指標を用いて多角的に評価された。TeachQuizは、生成された動画を視聴した後、VLMが知識を再学習(unlearning)の後にどれだけ正確に知識を回復できるかを定量的に測定する指標である。実験結果から、Code2Videoがスケーラブルかつ解釈可能で制御可能なアプローチとしての可能性を示し、直接コード生成手法に比べて40%の性能向上を達成した。また、人間が作成したチュートリアルと同等の質の動画を生成することに成功した。コードおよびデータセットは、以下のURLから公開されている。https://example.com/code2video