3달 전
확산 모델의 학습 역학 분석 및 개선
Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine

초록
현재 디퓨전 모델은 대규모 데이터셋에 대한 비례 확장성에서 뛰어난 성능을 보이며 데이터 기반 이미지 합성 분야를 주도하고 있다. 본 논문에서는 고급 ADM 디퓨전 모델 아키텍처의 훈련 과정에서 발생하는 비균형적이고 비효율적인 학습 현상을 규명하고, 아키텍처의 상위 구조를 변경하지 않고 이를 개선한다. 훈련 과정 중 네트워크 활성화 및 가중치의 크기 변화가 통제되지 않으며, 불균형이 발생하는 현상을 관찰한 후, 활성화, 가중치, 그리고 업데이트 크기의 기대값을 유지하도록 네트워크 레이어를 재설계하였다. 이러한 철학을 체계적으로 적용함으로써 관측된 드리프트 및 불균형 현상이 제거되었으며, 동일한 계산 복잡도 조건에서 훨씬 우수한 성능을 보이는 네트워크를 구현할 수 있었다. 본 연구의 수정을 통해 ImageNet-512 이미지 합성에서 기존의 최고 기록 FID 2.41을 1.81로 향상시켰으며, 이는 빠른 결정론적 샘플링 기법을 사용하여 달성되었다.또한 본 연구는 독립적인 기여로, 훈련 완료 후에 지수 이동 평균(Exponential Moving Average, EMA) 파라미터를 설정하는 방법을 제안한다. 이 방법은 여러 번의 훈련 실행을 수행할 필요 없이 EMA 길이를 정밀하게 조정할 수 있도록 하며, 네트워크 아키텍처, 훈련 시간, 가이드라인과의 놀라운 상호작용을 밝혀냈다.