무감독 도메인 적응을 위한 부드러운 표현 학습

일반적인 적대적 훈련 기반 비지도 도메인 적응 방법은 소스와 대상 데이터셋이 매우 복잡하거나 데이터 분포 사이에 큰 차이가 있는 경우 취약합니다. 최근에는 여러 리프시츠 제약(Lipschitz constraint) 기반 방법들이 연구되었습니다. 리프시츠 연속성(Lipschitz continuity)의 만족은 대상 도메인에서 뛰어난 성능을 보장하지만, 이들 방법들은 리프시츠 제약이 비지도 도메인 적응에 어떻게 유익한지에 대한 수학적 분석이 부족하며, 일반적으로 대규모 데이터셋에서는 성능이 저조합니다. 본 논문에서는 리프시츠 제약을 활용하는 원리를 한 단계 더 발전시키기 위해, 이 제약이 비지도 도메인 적응의 오차 경계(error bound)에 어떤 영향을 미치는지 논의합니다. 이를 통해 두 개념 간의 연결성을 구축하고, 리프시츠 특성이 오차 경계를 줄이는 방식을 설명합니다. 또한, 대상 분포의 점별(pointwise) 리프시츠 특성을 측정하기 위해 국소 매끄러운 차이(local smooth discrepancy)를 정의합니다. 딥 엔드투엔드 모델을 구성할 때, 비지도 도메인 적응의 효과와 안정성을 보장하기 위해 제안된 최적화 전략에서 세 가지 중요한 요소를 고려하였습니다: 대상 도메인의 샘플 수, 샘플의 차원 및 배치 크기(batchsize). 실험 결과는 우리의 모델이 여러 표준 벤치마크에서 우수한 성능을 보임을 입증하였습니다. 아블레이션 연구(ablation study)는 대상 도메인의 샘플 수, 샘플의 차원 및 배치 크기가 리프시츠 제약 기반 방법들의 대규모 데이터셋 처리 능력에 크게 영향을 미침을 보여주었습니다. 코드는 https://github.com/CuthbertCai/SRDA에서 제공됩니다.