2 个月前
iColoriT: 通过利用视觉变换器在交互式着色中将局部提示传播到正确区域
Jooyeol Yun; Sanghyeon Lee; Minho Park; Jaegul Choo

摘要
点交互式图像着色旨在当用户为特定位置提供颜色时对灰度图像进行着色。对于点交互式着色方法而言,关键在于合理地在整个图像中传播用户提供的颜色(即用户提示),以最少的用户努力获得合理的着色效果。然而,现有的方法由于卷积层堆叠设计的效率低下,往往只能产生部分着色的结果,无法有效地将提示传播到远处的相关区域。为了解决这一问题,我们提出了一种新的点交互式着色视觉变换器——iColoriT,该模型能够利用Transformer的全局感受野来传播用户提示至相关区域。Transformer的自注意力机制使得iColoriT仅需少数局部提示即可选择性地对相关区域进行着色。我们的方法通过使用像素洗牌技术(一种高效的上采样技术)替代解码器架构,实现了实时图像着色。此外,为了减轻大上采样比例下像素洗牌引起的伪影问题,我们引入了局部稳定层。大量的定量和定性结果表明,我们的方法在点交互式图像着色方面显著优于现有方法,能够在用户付出最小努力的情况下生成准确的着色图像。官方代码可在以下链接获取:https://pmh9960.github.io/research/iColoriT