합성 데이터를 활용한 자기 개선형 확산 모델

인공지능(AI) 분야는 점점 더 큰 생성 모델을 훈련시키기 위한 진정한 데이터가 부족해지면서, 합성 데이터를 활용한 훈련에 대한 압박이 가속화되고 있다. 그러나 현재 또는 과거 세대의 모델에서 생성된 합성 데이터로 새로운 생성 모델을 훈련시키는 것은 자가소화적(자기소모적) 순환을 초래하며, 이는 모델의 성능 저하와 합성 데이터의 품질 및 다양성 저하를 야기한다. 이를 '모델 자가소화 장애(Model Autophagy Disorder, MAD)'라고 명명하고 있으며, 이로 인해 모델이 붕괴되는 현상이 발생한다. 현재까지의 통념은 합성 데이터를 훈련에 사용하지 않는 것이 MAD에 빠지는 것을 막는 유일한 방법이라고 주장한다. 본 논문에서는 이러한 기존의 사고방식과는 달리, 합성 데이터를 진정한 데이터와 다르게 다루는 새로운 접근법을 제시한다. 합성 데이터를 활용한 자기개선형 확산 모델(Self-IMproving diffusion models with Synthetic data, SIMS)은 확산 모델을 위한 새로운 훈련 개념으로, 생성 과정 중에 자기 생성된 합성 데이터를 활용해 부정적 지침(negative guidance)을 제공함으로써, 모델의 생성 과정이 이상적인 합성 데이터의 매니폴드에서 벗어나 진정한 데이터 분포로 이동하도록 유도한다. 우리는 SIMS가 자기 개선(self-improvement) 능력을 갖추고 있음을 입증하였으며, CIFAR-10 및 ImageNet-64 생성에 있어 프레체트 인셉션 거리(Fréchet Inception Distance, FID) 기준으로 새로운 기록을 수립하였고, FFHQ-64 및 ImageNet-512에서도 경쟁 가능한 성능을 달성하였다. 게다가, 본 연구에 따르면 SIMS는 자가 생성된 합성 데이터를 반복적으로 훈련할 수 있음에도 불구하고 MAD에 빠지지 않는다는 점에서, 알려진 바에 따르면 세계 최초의 예방적 생성형 AI 알고리즘이다. 또한 추가적인 이점으로, SIMS는 확산 모델의 합성 데이터 분포를 원하는 도메인 내 목표 분포와 일치시킬 수 있어, 편향을 완화하고 공정성을 보장하는 데 기여할 수 있다.