3달 전

확산 모델의 학습 역학 분석 및 개선

Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine
확산 모델의 학습 역학 분석 및 개선
초록

현재 디퓨전 모델은 대규모 데이터셋에 대한 비례 확장성에서 뛰어난 성능을 보이며 데이터 기반 이미지 합성 분야를 주도하고 있다. 본 논문에서는 고급 ADM 디퓨전 모델 아키텍처의 훈련 과정에서 발생하는 비균형적이고 비효율적인 학습 현상을 규명하고, 아키텍처의 상위 구조를 변경하지 않고 이를 개선한다. 훈련 과정 중 네트워크 활성화 및 가중치의 크기 변화가 통제되지 않으며, 불균형이 발생하는 현상을 관찰한 후, 활성화, 가중치, 그리고 업데이트 크기의 기대값을 유지하도록 네트워크 레이어를 재설계하였다. 이러한 철학을 체계적으로 적용함으로써 관측된 드리프트 및 불균형 현상이 제거되었으며, 동일한 계산 복잡도 조건에서 훨씬 우수한 성능을 보이는 네트워크를 구현할 수 있었다. 본 연구의 수정을 통해 ImageNet-512 이미지 합성에서 기존의 최고 기록 FID 2.41을 1.81로 향상시켰으며, 이는 빠른 결정론적 샘플링 기법을 사용하여 달성되었다.또한 본 연구는 독립적인 기여로, 훈련 완료 후에 지수 이동 평균(Exponential Moving Average, EMA) 파라미터를 설정하는 방법을 제안한다. 이 방법은 여러 번의 훈련 실행을 수행할 필요 없이 EMA 길이를 정밀하게 조정할 수 있도록 하며, 네트워크 아키텍처, 훈련 시간, 가이드라인과의 놀라운 상호작용을 밝혀냈다.