
摘要
我们提出了一种名为“Colorization Transformer”的新型图像着色方法,该方法基于自注意力机制,能够实现多样化且高保真的图像着色。给定一幅灰度图像,该方法分为三个步骤完成着色过程:首先,利用条件自回归Transformer生成灰度图像的低分辨率粗略着色结果;我们的架构采用条件Transformer层,有效实现对灰度输入的条件建模。随后,两个完全并行的网络将粗略着色的低分辨率图像上采样为精细着色的高分辨率图像。从Colorization Transformer中采样生成的着色结果具有高度多样性,其保真度在基于ImageNet数据集的FID指标上超越了此前的最先进方法,并在Mechanical Turk平台的人工评估中也表现出优异性能。尤为显著的是,在超过60%的测试案例中,人类评估者更倾向于三组生成着色结果中得分最高的那一幅,甚至优于真实标签(ground truth)。Colorization Transformer的代码及预训练模型已公开发布于GitHub:https://github.com/google-research/google-research/tree/master/coltran