17일 전
희소한 믹스처 오브 익스퍼트는 도메인 일반화 학습자이다
Bo Li, Yifei Shen, Jingkang Yang, Yezhen Wang, Jiawei Ren, Tong Che, Jun Zhang, Ziwei Liu

초록
인간의 시각 인지 능력은 분포 외 시각 데이터에 대해 쉽게 일반화할 수 있으나, 현대 기계 학습 모델은 이에 비해 훨씬 낮은 수준에 머물러 있다. 도메인 일반화(Domain Generalization, DG)는 이러한 격차를 줄이려는 연구 분야이며, 기존 DG 기법들은 주로 손실 함수 설계에 집중해왔다. 본 논문에서는 이와는 정반대의 방향—즉, 백본 아키텍처 설계—에 주목한다. 이는 여러 DG 데이터셋에서 경험적 위험 최소화(ERM)로 훈련된 트랜스포머 기반 모델이 최신(SOTA) DG 알고리즘을 사용하는 CNN 기반 모델보다 뛰어난 성능을 보인다는 경험적 발견에서 비롯된다. 우리는 데이터셋 내 상관관계와 아키텍처의 일치도를 분석함으로써 네트워크의 분포 이동에 대한 강건성을 정량적으로 설명할 수 있는 공식적 프레임워크를 제안한다. 이러한 분석을 기반으로, 비전 트랜스포머를 기반으로 한 새로운 DG 모델인 일반화 가능한 전문가 혼합(GMoE: Generalizable Mixture-of-Experts)을 제안한다. DomainBed에서 실시한 광범위한 실험 결과, ERM으로 훈련된 GMoE는 SOTA DG 기준 모델보다 크게 우수한 성능을 기록하였다. 또한 GMoE는 기존 DG 기법과 보완적 관계에 있으며, DG 알고리즘을 함께 사용해 훈련할 경우 성능이 크게 향상됨을 확인하였다.