16일 전
NoisyTwins: StyleGAN을 통한 클래스 일관성과 다양성을 갖춘 이미지 생성
Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu

초록
StyleGAN은 이미지 편집 및 조작에 적합한 의미론적으로 분리된 잠재 공간을 생성하기 때문에, 제어 가능한 이미지 생성 분야에서 최첨단 기술로 자리 잡고 있다. 그러나 대규모 긴 꼬리(long-tailed) 데이터셋에서 클래스 조건부 학습을 수행할 경우, StyleGAN의 성능은 심각하게 저하된다. 우리는 이러한 성능 저하의 원인 중 하나로, $\mathcal{W}$ 잠재 공간 내 각 클래스에 대한 잠재 표현의 붕괴(collapse)가 있음을 발견했다. 본 연구에서는 NoisyTwins를 제안하여, 클래스 임베딩을 위한 효과적이고 저비용의 증강 전략을 도입함으로써, $\mathcal{W}$ 공간 내에서 자기지도 학습(self-supervision) 기반으로 잠재 표현 간의 상관관계를 감소시킨다. 이 상관관계 감소는 붕괴 현상을 완화시켜, 클래스 일관성과 함께 클래스 내 다양성을 유지하는 것이 가능하게 한다. 제안된 방법은 ImageNet-LT 및 iNaturalist 2019과 같은 대규모 실세계 긴 꼬리 데이터셋에서 검증되었으며, FID 지표에서 기존 방법들보다 약 19% 우수한 성능을 보여, 새로운 최고 성능 기준을 수립하였다.