Meta-DMoE: Mixture-of-Experts로부터의 메타-디스틸레이션을 통한 도메인 스피드에의 적응

본 논문에서는 도메인 스플릿(domain shift) 문제에 대응한다. 기존의 대부분의 방법들은 단일 모델을 사용하여 여러 소스 도메인에서 학습을 수행하고, 동일한 학습된 모델을 모든 미지의 타겟 도메인에 그대로 적용한다. 그러나 이러한 접근은 각 타겟 도메인이 고유한 특성을 지닌다는 점을 무시하므로 최적의 해결책이 아니다. 또한, 단일 모델이 다수의 소스 도메인으로부터 광범위한 지식을 학습하도록 기대하는 것은 직관에 어긋난다. 이로 인해 모델은 도메인 불변 특징(domain-invariant features)만을 학습하는 편향에 빠지게 되며, 오히려 부정적인 지식 전이(negative knowledge transfer)를 초래할 수 있다. 본 연구에서는 비지도(test-time) 적응을 위한 새로운 프레임워크를 제안하며, 도메인 스플릿 문제를 지식 증류(knowledge distillation) 프로세스로 공식화한다. 구체적으로, 각 전문가(expert)가 서로 다른 소스 도메인에서 별도로 학습되어 각자의 특성을 극대화하도록 하여 Mixture-of-Experts(MoE)를 교사(teacher)로 도입한다. 테스트 시점의 타겟 도메인을 대상으로, 소량의 레이블 없는 데이터를 샘플링하여 MoE로부터 지식을 질의한다. 소스 도메인과 타겟 도메인이 상호 관련되어 있으므로, 트랜스포머 기반의 아그리게이터(aggregator)가 도메인 간의 상호 연결성을 분석하여 도메인 지식을 통합한다. 이 통합된 출력은 학생(student) 예측 네트워크가 타겟 도메인에 적응하도록 하는 감독 신호로 활용된다. 또한, 메타학습(meta-learning)을 도입하여 아그리게이터가 긍정적인 지식을 효과적으로 증류하도록 유도하고, 학생 네트워크가 빠른 적응을 달성할 수 있도록 한다. 광범위한 실험을 통해 제안한 방법이 최첨단 기법들을 능가함을 입증하며, 각 제안된 구성 요소의 효과성도 검증하였다. 본 연구의 코드는 https://github.com/n3il666/Meta-DMoE 에서 공개되어 있다.