17일 전

SWAD: 평탄한 최소값 탐색을 통한 도메인 일반화

Junbum Cha, Sanghyuk Chun, Kyungjae Lee, Han-Cheol Cho, Seunghyun Park, Yunsung Lee, Sungrae Park
SWAD: 평탄한 최소값 탐색을 통한 도메인 일반화
초록

도메인 일반화(Domain Generalization, DG) 기법들은 소스 도메인의 학습 데이터만을 사용하여 미리 보지 못한 타겟 도메인에 대해 일반화 성능을 달성하려는 목표를 가지고 있다. 다양한 DG 기법들이 제안되어 왔음에도 불구하고, 최근의 연구에 따르면 공정한 평가 프로토콜인 DomainBed 하에서 단순한 경험적 위험 최소화(Empirical Risk Minimization, ERM) 접근법이 기존의 방법들과 비교해 유사하거나 오히려 더 뛰어난 성능을 보인다. 그러나 복잡하고 비볼록(non-convex)인 손실 함수 위에서 ERM을 단순히 적용하는 것은 날카로운 최소값을 탐색하게 되어 최적의 일반화 성능을 달성하기 어렵게 만든다. 본 논문에서는 이론적으로 평탄한 최소값(Flat minima)을 찾는 것이 도메인 일반화 갭(Generalization Gap)을 작게 만든다는 것을 입증한다. 또한 평탄한 최소값을 효과적으로 탐색할 수 있는 간단하면서도 강력한 새로운 방법인 Stochastic Weight Averaging Densely(SWAD)를 제안한다. SWAD는 밀집된(dense) 및 과적합에 민감한(stochastic weight sampling strategy) 전략을 통해 전통적인 SWA(Soft Weight Averaging)보다 더 평탄한 최소값을 찾으며, 과적합의 영향도 덜 받는다. SWAD는 PACS, VLCS, OfficeHome, TerraIncognita, DomainNet 등 다섯 개의 DG 기준 데이터셋에서 최신 기법들에 비해 일관되고 뚜렷한 성능 향상을 보이며, 도메인 외 성능(Out-of-domain accuracy)에서 평균적으로 +1.6%의 성능 향상을 기록한다. 또한, 데이터 증강(data augmentation) 및 일관성 정규화(consistency regularization)와 같은 기존의 일반화 기법들과의 비교를 통해, SWAD의 뛰어난 성능 향상이 평탄한 최소값 탐색에 기인함을 확인하였으며, 도메인 내 일반화 성능 향상과는 무관함을 입증한다. 마지막으로, SWAD는 기존의 DG 기법들에 수정 없이 쉽게 통합 가능하며, 기존 DG 기법과의 결합은 DG 성능을 추가로 향상시킨다. 소스 코드는 https://github.com/khanrc/swad 에서 공개되어 있다.