17일 전

텍스트에서 이미지 합성에 대한 반복적 아핀 변환

Senmao Ye, Fei Liu, Minkui Tan
텍스트에서 이미지 합성에 대한 반복적 아핀 변환
초록

텍스트 기반 이미지 합성은 텍스트 설명을 조건으로 하여 자연스러운 이미지를 생성하는 것을 목표로 한다. 이 작업의 주요 과제는 텍스트 정보를 이미지 합성 과정에 효과적으로 융합하는 것이다. 기존의 방법들은 여러 개의 독립적인 융합 블록(예: 조건부 배치 정규화 및 인스턴스 정규화)을 활용하여 적절한 텍스트 정보를 합성 과정에 적응적으로 통합한다. 그러나 이러한 독립적인 융합 블록들은 서로 간에 충돌을 일으키며, 학습의 난이도를 증가시킨다(보충 자료의 첫 페이지 참조). 이러한 문제를 해결하기 위해, 우리는 생성적 적대 신경망(GAN)을 위한 순환적 아핀 변환(RAT: Recurrent Affine Transformation)을 제안한다. 이 방법은 모든 융합 블록을 순환 신경망으로 연결함으로써 그들 간의 장기적 의존성을 모델링한다. 또한, 텍스트와 합성된 이미지 간의 의미 일관성을 향상시키기 위해, 판별자에 공간 주의 메커니즘(spatial attention model)을 도입한다. 이는 이미지의 특정 영역과 텍스트 설명 간의 매칭을 인지하게 하여, 생성자에게 더 관련성 있는 이미지 내용을 생성하도록 지시한다. CUB, Oxford-102 및 COCO 데이터셋에서 수행한 광범위한 실험을 통해 제안하는 모델이 최신 기술 대비 우수한 성능을 보임을 입증하였다. \footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}