적대적 스코어 아이덴티티 디스틸레이션: 한 단계로 선생님을 빠르게 능가하기

Score Identity Distillation (SiD)는 학습 데이터가 필요 없이 사전 훈련된 확산 모델만을 활용함으로써 이미지 생성 분야에서 최고의 성능(SOTA)을 달성한 데이터 프리(Data-free) 방법이다. 그러나 SiD의 최종 성능은 사전 훈련된 모델이 확산 과정의 다양한 단계에서 진정한 데이터 스코어를 얼마나 정확히 포착하는지에 의해 제한된다. 본 논문에서는 진짜 이미지와 적대적 손실(Adversarial Loss)을 도입함으로써 생성 품질을 향상시키고, 추출 효율을 개선하는 SiDA(SiD with Adversarial Loss)를 제안한다. SiDA는 생성기의 스코어 네트워크에서 추출한 인코더를 디스크리미네이터로 활용하여 진짜 이미지와 SiD에 의해 생성된 이미지 간을 구분할 수 있도록 한다. 적대적 손실은 각 GPU 배치 내에서 배치 정규화(Batch Normalization)되며, 원래 SiD 손실과 결합된다. 이 통합 구조는 각 GPU 배치당 평균적인 '가짜성(Fakeness)'을 픽셀 기반 SiD 손실에 효과적으로 통합함으로써, 단일 스텝 생성기의 추출이 가능하게 한다. SiDA는 처음부터 추출할 때 기존 방법보다 훨씬 빠르게 수렴하며, 사전 추출된 SiD 생성기로부터의 미세조정(fine-tuning) 시에도 원래 모델의 성능을 빠르게 초월한다. 단일 스텝 적대적 추출 방식인 SiDA는 EDM 확산 모델을 추출할 때 새로운 기준을 설정하였으며, ImageNet 64x64에서 FID 점수 1.110을 달성하였다. ImageNet 512x512에서 훈련된 EDM2 모델을 추출할 경우, SiDA는 FID 1.81을 기록한 가장 큰 교사 모델인 EDM2-XXL을 뛰어넘었다. 이에 비해 SiDA는 CFG(Classifier-Free Guidance) 없이 단일 생성 스텝만으로 XS 크기에서 FID 2.156, S에서 1.669, M에서 1.488, L에서 1.413, XL에서 1.379, XXL에서 1.366의 성능을 달성하였다. 이는 모든 모델 크기에서 상당한 성능 향상을 보여준다. 본 연구의 코드는 https://github.com/mingyuanzhou/SiD/tree/sida 에 공개되어 있다.