
摘要
传统动画与动漫制作流程包含关键帧绘制、中间帧补绘以及上色三个阶段,这些环节均需投入大量人工精力。尽管近年来人工智能技术取得了显著进展,现有方法通常将上述阶段独立处理,导致误差累积与视觉伪影问题。例如,中间帧补绘方法在处理大幅运动时表现不佳,而上色方法则往往依赖密集的逐帧草图输入。为解决上述问题,我们提出 ToonComposer——一种将中间帧补绘与上色统一整合为单一后关键帧处理阶段的生成式模型。ToonComposer 采用稀疏草图注入机制,仅通过关键帧草图即可实现精准控制。此外,该模型引入一种面向动漫领域的适应方法,结合空间低秩适配器(spatial low-rank adapter),在保留现代视频基础模型时间先验能力的同时,有效将其适配至动漫图像域。ToonComposer 仅需一个草图和一个上色参考帧即可实现高质量生成,具备出色的稀疏输入处理能力;同时支持在任意时间位置输入多个草图,以实现更精细的运动控制。这一双重能力显著降低了人工工作量,提升了创作灵活性,为实际创作场景中的艺术家提供了有力支持。为评估所提模型,我们进一步构建了 PKBench 基准数据集,其中包含由人工绘制的草图,真实模拟了实际应用中的使用场景。实验结果表明,ToonComposer 在视觉质量、运动一致性与制作效率方面均显著优于现有方法,为人工智能辅助动漫制作提供了一种更优且更具灵活性的解决方案。