
초록
텍스트-이미지 생성은 고품질 이미지를 합성하기 위해 방대한 양의 훈련 데이터를 필요로 한다. 기존의 데이터 증강 방법은 자르기, 뒤집기, 믹스업과 같은 데이터 보간 기법에 의존하였으나, 이러한 방법들은 새로운 정보를 도입하지 못하고 단지 미미한 성능 향상에 그쳤다. 본 논문에서는 선형 외삽(Linear Extrapolation)을 활용한 텍스트-이미지 생성을 위한 새로운 데이터 증강 기법을 제안한다. 구체적으로, 텍스트 특징에만 선형 외삽을 적용하고, 검색 엔진을 통해 인터넷에서 새로운 이미지 데이터를 검색한다. 신규 텍스트-이미지 쌍의 신뢰성을 확보하기 위해 두 가지 이상치 탐지기(outlier detector)를 설계하여 검색된 이미지를 정제한다. 외삽 기반으로 원본 데이터셋보다 수십 배 이상 큰 훈련 샘플을 구성함으로써 텍스트-이미지 생성 성능이 크게 향상된다. 더불어, 스코어 추정을 정교화하기 위한 NULL 가이던스를 제안하고, 반복적 아핀 변환(recurrent affine transformation)을 사용하여 텍스트 정보를 융합한다. 제안된 모델은 CUB, Oxford, COCO 데이터셋에서 각각 FID 점수 7.91, 9.52, 5.00을 달성하였다. 코드 및 데이터는 GitHub(https://github.com/senmaoy/RAT-Diffusion)에서 공개될 예정이다.