Cobra:基于更广泛参考的高效线稿上色方法
Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan
发布日期: 4/17/2025

摘要
漫画制作行业需要高精度、高效、上下文一致且灵活可控的基于参考的线稿上色技术。漫画页面通常包含多种角色、物体和背景,这使得上色过程变得复杂。尽管在图像生成领域扩散模型取得了显著进展,但它们在线稿上色中的应用仍然有限,面临处理大量参考图像、耗时推理和灵活控制等方面的挑战。我们研究了大量上下文图像指导对线稿上色质量的必要性。为了解决这些挑战,我们引入了Cobra,这是一种高效且多功能的方法,支持颜色提示,并能利用超过200张参考图像,同时保持低延迟。Cobra的核心是因果稀疏DiT(Diffusion Transformer)架构,该架构通过特别设计的位置编码、因果稀疏注意力机制和键值缓存(Key-Value Cache),有效管理长上下文参考图像并确保颜色一致性。实验结果表明,Cobra通过大量上下文参考实现了准确的线稿上色,显著提高了推理速度和交互性,从而满足了行业的重要需求。我们已在项目页面上发布了代码和模型:https://zhuang2002.github.io/Cobra/。