
최근 연구들은 심층 생성형 확산 모델에서 노이즈 제거 과정이 데이터 분포로부터 의미 정보를 암묵적으로 학습하고 기억하고 있음을 시사한다. 이러한 발견은 더 복잡한 데이터 분포를 포착하기 위해서는 더 큰 신경망이 필요하며, 이로 인해 계산 요구량이 급격히 증가함을 의미한다. 결과적으로 계산 비용은 확산 모델의 학습 및 추론 과정에서 주요한 성능 저하 요인으로 작용하고 있다. 이를 해결하기 위해 우리는 GMem: 초효율 생성 모델을 위한 모듈러 접근법을 제안한다. 본 연구에서 제안하는 GMem은 메모리 용량을 모델 자체와 분리하여 별도의 불변 메모리 세트로 구현함으로써 데이터 내 핵심적인 의미 정보를 유지한다. 실험 결과는 매우 두드러지며, GMem은 학습 효율성, 샘플링 속도, 그리고 생성 다양성 측면에서 모두 향상된 성능을 보였다. 이 설계는 모델이 복잡한 데이터 분포를 기억하는 데 의존하는 정도를 줄여 학습 및 추론 효율성을 동시에 향상시킨다. ImageNet 데이터셋에서 $256 \times 256$ 해상도에서 GMem은 SiT 대비 학습 속도를 50배 향상시켰으며, 28 에포크(약 4시간) 이내에 FID $=7.66$를 달성하는 데 성공했고, SiT는 이 성능을 달성하기 위해 1400 에포크가 필요하다. 분류기 없는 가이던스 없이도 GMem은 단 160 에포크(약 20시간) 만에 상태최고(SoTA) 수준의 성능인 FID $=1.53$를 달성했으며, 이는 LightningDiT가 800 에포크(약 95시간)를 소요해 FID $=2.17$를 달성한 것보다 뛰어난 성능을 보였다.