
초록
우리는 자기 주의(self-attention) 기반의 새로운 접근법인 Colorization Transformer를 제안한다. 이는 다양한 고해상도 이미지 색상화를 가능하게 한다. 회색조 이미지를 입력으로 받았을 때, 색상화 과정은 세 단계로 진행된다. 먼저, 조건부 자기회귀형 트랜스포머(conditional autoregressive transformer)를 사용하여 입력 회색조 이미지에 대해 저해상도의 대략적인 색상화를 생성한다. 우리의 아키텍처는 회색조 입력을 효과적으로 조건부로 처리하기 위해 조건부 트랜스포머 레이어를 채택한다. 이후 두 개의 완전히 병렬로 동작하는 네트워크가 저해상도의 색상화된 이미지를 고해상도의 세밀한 색상화 이미지로 업샘플링한다. Colorization Transformer로부터 샘플링된 결과는 다양한 색상화 결과를 생성하며, FID 점수 및 Mechanical Turk 테스트에서의 인간 평가 결과를 기준으로 기존 최고 성능 기법보다 뛰어난 재현 정확도를 보였다. 특히, 인간 평가자들이 생성된 세 가지 색상화 중 가장 높은 점수를 받은 결과를 진짜(ground truth) 이미지보다 선호하는 경우가 60% 이상에 달했다. Colorization Transformer의 코드와 사전 학습된 체크포인트는 다음 링크에서 공개되어 있다: https://github.com/google-research/google-research/tree/master/coltran