Scatter Component Analysis: 도메인 적응과 도메인 일반화를 위한 통합 프레임워크

본 논문은 라벨링된 훈련 데이터가 대상 영역과는 다르지만 관련된 소스 영역에서만 제공되는 특정 대상 영역의 분류 작업을 다룹니다. 도메인 적응(domain adaptation)과 도메인 일반화(domain generalization)라는 두 개의 밀접하게 관련된 프레임워크가 이러한 작업에 대해 연구되고 있으며, 이들 프레임워크 간의 유일한 차이점은 라벨링되지 않은 대상 데이터의 사용 가능 여부입니다: 도메인 적응은 라벨링되지 않은 대상 정보를 활용할 수 있지만, 도메인 일반화는 그렇지 않습니다. 우리는 도메인 적응과 도메인 일반화 모두에 적용할 수 있는 빠른 표현 학습 알고리즘인 산포 성분 분석(Scatter Component Analysis, SCA)을 제안합니다. SCA는 재현 커널 힐베르트 공간(reproducing kernel Hilbert space)에서 작동하는 단순한 기하학적 측정치인 산포(scatter)를 기반으로 합니다. SCA는 클래스 간 구분성을 최대화하고, 영역 간 불일치를 최소화하며, 데이터 간 구분성을 최대화하는 표현을 찾는데, 각각은 산포를 통해 정량화됩니다. SCA의 최적화 문제는 일반화된 고유값 문제로 축소될 수 있으며, 이로 인해 빠르고 정확한 해법이 얻어집니다. 벤치마크 크로스-도메인 객체 인식 데이터셋에 대한 포괄적인 실험 결과, SCA는 여러 최신 알고리즘보다 훨씬 더 빠르게 수행되며, 도메인 적응과 도메인 일반화 모두에서 최신 수준의 분류 정확도를 제공함을 확인하였습니다. 또한 우리는 산포가 도메인 적응의 경우 이론적인 일반화 경계를 설정하는 데 사용될 수 있음을 보여주었습니다.