
본 논문에서는 이미지 생성 작업을 위한 자기 주의 기반 생성적 적대 네트워크(Self-Attention Generative Adversarial Network, SAGAN)를 제안합니다. 이 모델은 주의 메커니즘을 통해 장거리 의존성을 모델링할 수 있습니다. 전통적인 컨볼루션 GAN은 고해상도 세부 정보를 저해상도 특징 맵에서 공간적으로 국소적인 점들만을 함수로 사용하여 생성합니다. 그러나 SAGAN에서는 모든 특징 위치로부터의 힌트를 사용하여 세부 정보를 생성할 수 있습니다. 또한, 판별기는 이미지의 먼 부분에 있는 고해상도 특징들이 서로 일관성이 있는지를 확인할 수 있습니다. 최근 연구에서는 생성기 조건화가 GAN 성능에 영향을 미친다는 것을 보여주었습니다. 이 인사이트를 활용하여, 우리는 스펙트럼 정규화를 GAN 생성기에 적용하고 이를 통해 학습 동력학이 개선되는 것을 발견했습니다. 제안된 SAGAN은 어려운 ImageNet 데이터셋에서 최고의 발표된 Inception 점수를 36.8에서 52.52로 끌어올리고, Fréchet Inception 거리를 27.62에서 18.65로 줄이는 등 최신 기술 결과를 달성하였습니다. 주의 층의 시각화는 생성기가 객체 형태에 해당하는 이웃을 rather than 고정된 형태의 국소 영역을 활용한다는 것을 보여줍니다.注意:在最后一句中,“rather than”是一个对比连接词,通常用于表示“而不是”。为了使句子更加自然流畅,建议将其翻译为“대신에”。以下是修改后的版本:주의 층의 시각화는 생성기가 객체 형태에 해당하는 이웃을 고정된 형태의 국소 영역 대신에 활용한다는 것을 보여줍니다.