17일 전
대조 학습을 이용한 텍스트-to-이미지 합성 개선
Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji

초록
텍스트-이미지 합성의 목표는 주어진 텍스트 설명과 일치하는 시각적으로 현실감 있는 이미지를 생성하는 것이다. 실제 적용에서는 동일한 이미지에 대해 인간이 부여한 설명(캡션) 간에 내용과 용어 선택 측면에서 큰 차이가 존재한다. 동일한 이미지에 대한 캡션들 사이의 언어적 차이로 인해 합성된 이미지가 참값(Ground Truth)에서 벗어나는 문제가 발생한다. 이 문제를 해결하기 위해, 합성 이미지의 품질을 향상시키고 의미적 일관성을 강화하기 위한 대조 학습(contrastive learning) 기반 접근법을 제안한다. 사전 훈련 단계에서는 동일한 이미지에 해당하는 캡션들에 대해 일관된 텍스트 표현을 학습하기 위해 대조 학습을 활용한다. 또한, 이후 GAN 훈련 단계에서는 동일한 이미지와 관련된 캡션들로부터 생성된 이미지 간의 일관성을 강화하기 위해 동일한 대조 학습 방법을 적용한다. 제안한 방법은 각각 CUB 및 COCO 데이터셋에서 텍스트-이미지 합성 모델인 AttnGAN과 DM-GAN을 대상으로 평가되었다. 실험 결과, 제안한 방법이 IS(Inception Score), FID(Frechet Inception Distance), R-precision 세 가지 지표에서 합성 이미지 품질을 효과적으로 향상시킴을 확인하였다. 특히 도전적인 COCO 데이터셋에서, 제안 방법은 AttnGAN 대비 FID를 29.60% 향상시키고, DM-GAN 대비 21.96% 개선하는 데 성공하였다.