8일 전

비교-믹스 트랜스포머를 통한 비지도 도메인 적응: 게임적 관점

Jinjing Zhu, Haotian Bai, Lin Wang
비교-믹스 트랜스포머를 통한 비지도 도메인 적응: 게임적 관점
초록

최근 들어 시각 변형 모델(Vision Transformer, ViT)을 활용하여 도전적인 비지도 도메인 적응(unsupervised domain adaptation, UDA) 작업을 수행하려는 노력이 이루어지고 있다. 기존 방법들은 보통 ViT 내의 크로스 어텐션(cross-attention)을 활용하여 타깃 샘플에 대해 직접적인 도메인 정렬을 수행한다. 그러나 크로스 어텐션의 성능은 타깃 샘플에 대한 가짜 레이블(pseudo labels)의 품질에 크게 의존하기 때문에, 도메인 간 차이가 클수록 그 효과가 감소하게 된다. 본 연구는 게임 이론적 관점에서 이 문제를 해결하기 위해 PMTrans라는 새로운 모델을 제안한다. PMTrans는 소스 도메인과 타깃 도메인 사이에 중간 도메인(intermediate domain)을 도입함으로써 두 도메인을 연결한다. 구체적으로, 게임 이론적 모델을 기반으로 두 도메인의 패치를 어떻게 샘플링할지를 학습하는 새로운 ViT 기반 모듈인 PatchMix를 제안한다. 이 모듈은 소스 및 타깃 도메인의 패치를 혼합하여 중간 도메인, 즉 확률 분포를 효과적으로 구축한다. 이 과정에서 PatchMix는 크로스 엔트로피(Cross Entropy, CE)를 최대화하는 방향으로 패치를 혼합하도록 학습하면서, 특징 공간과 레이블 공간에서 두 가지 반지도 학습 기반의 미크업(mixup) 손실을 활용하여 이를 최소화한다. 이러한 방식으로, UDA 과정을 특징 추출기, 분류기, PatchMix의 세 플레이어로 구성된 미니맥스(Min-Max) CE 게임으로 해석하며, 내쉬 균형(Nash Equilibrium)을 탐색한다. 또한, ViT에서 생성된 어텐션 맵을 활용하여 각 패치의 중요도에 따라 레이블을 재가중함으로써, 더 도메인 구별 능력을 갖춘 특징 표현을 얻는 것이 가능해진다. 다양한 기준 데이터셋(Office-Home, Office-31, DomainNet 등)에서 광범위한 실험을 수행한 결과, PMTrans는 ViT 기반 및 CNN 기반 최첨단(SoTA) 방법 대비 각각 Office-Home에서 +3.6%, Office-31에서 +1.4%, DomainNet에서 +17.7%의 성능 향상을 달성하여, 우수한 성능을 입증하였다.