2달 전

AttnGAN: 주의 기반 생성적 적대 네트워크를 이용한 세부적인 텍스트-이미지 생성

Tao Xu; Pengchuan Zhang; Qiuyuan Huang; Han Zhang; Zhe Gan; Xiaolei Huang; Xiaodong He
AttnGAN: 주의 기반 생성적 적대 네트워크를 이용한 세부적인 텍스트-이미지 생성
초록

본 논문에서는 세부적인 텍스트-이미지 생성을 위해 주의 기반 다단계 정교화를 허용하는 주의 기반 생성적 적대 네트워크(AttnGAN)를 제안합니다. 혁신적인 주의 기반 생성 네트워크를 통해 AttnGAN은 자연어 설명에서 관련 단어에 주의를 집중함으로써 이미지의 다양한 하위 영역에서 세부적인 특징을 합성할 수 있습니다. 또한, 깊은 주의 기반 다모달 유사성 모델을 제안하여 생성기의 학습에 사용되는 세부적인 이미지-텍스트 일치 손실을 계산합니다. 제안된 AttnGAN은 이전 최고 수준을 크게 능가하며, CUB 데이터셋에서는 최고 보고된 인셉션 점수를 14.14% 향상시키고, 더 어려운 COCO 데이터셋에서는 170.25% 향상시켰습니다. 또한, AttnGAN의 주의 층을 시각화하여 상세한 분석을 수행하였습니다. 이는 처음으로 층별 주의 기반 GAN이 이미지의 다른 부분을 생성하기 위해 단어 단위로 조건을 자동으로 선택할 수 있음을 보여줍니다.