
초록
컴퓨터 그래픽스 분야는 최근 사진처럼 생생하고 제어 가능한 콘텐츠 생성을 위한 데이터 중심적 접근법의 급격한 성장을 경험하고 있다. 특히 StyleGAN은 이미지 품질과 제어 가능성 측면에서 생성 모델링의 새로운 기준을 설정하였다. 그러나 StyleGAN은 ImageNet과 같은 대규모 비구조화 데이터셋에서 성능이 심각하게 저하된다. StyleGAN은 제어 가능성에 초점을 맞춰 설계되었기 때문에, 기존 연구들은 그 제한적인 설계가 다양한 데이터셋에 적합하지 않을 것이라 추측해왔다. 반면에, 우리는 주요한 제약 요인이 현재의 학습 전략에 있음을 발견하였다. 최근 제안된 Projected GAN 패러다임을 따르며, 강력한 신경망 사전 지식과 점진적 성장 전략을 활용하여 최신의 StyleGAN3 생성자로 ImageNet에서 성공적으로 학습을 수행하였다. 최종적으로 개발한 모델인 StyleGAN-XL은 대규모 이미지 합성 분야에서 새로운 최고 성능을 달성하였으며, 이러한 데이터셋 규모에서 처음으로 해상도 1024²의 이미지를 생성하는 데 성공하였다. 본 연구에서는 이 모델이 초상화나 특정 객체 클래스에 국한되지 않은 영역에서도 이미지의 역전환 및 편집이 가능함을 실험적으로 입증하였다.