AniMaker:基于MCTS驱动的多智能体自动动画故事生成
Shi, Haoyuan ; Li, Yunxin ; Chen, Xinyu ; Wang, Longyue ; Hu, Baotian ; Zhang, Min
发布日期: 6/15/2025

摘要
尽管视频生成模型取得了快速进展,但生成连贯的故事视频,涵盖多个场景和角色仍然具有挑战性。当前的方法通常将预生成的关键帧僵硬地转换为固定长度的片段,导致叙事脱节和节奏问题。此外,视频生成模型固有的不稳定性意味着即使一个低质量的片段也会显著降低整个输出动画的逻辑连贯性和视觉连续性。为了克服这些障碍,我们引入了AniMaker,一个多代理框架,能够高效地生成多候选片段并进行故事感知的片段选择,从而仅从文本输入创建全局一致且故事连贯的动画。该框架围绕专门的代理构建,包括用于故事板生成的导演代理(Director Agent)、用于视频片段生成的摄影代理(Photography Agent)、用于评估的评审代理(Reviewer Agent)以及用于编辑和配音的后期制作代理(Post-Production Agent)。AniMaker方法的核心在于两个关键技术组件:MCTS-Gen在摄影代理中使用了一种高效的蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)启发策略,智能地导航候选空间以生成高潜力片段,同时优化资源使用;而AniEval在评审代理中则是首个专为多镜头动画评估设计的框架,通过考虑每个片段在其前后片段的上下文中来评估关键方面,如故事层面的一致性、动作完成度和动画特有的特征。实验表明,AniMaker在VBench等流行指标以及我们提出的AniEval框架下均表现出更高的质量,并显著提高了多候选片段生成的效率,使AI生成的故事动画更接近生产标准。