
초록
UMAP는 구조화된 데이터의 저차원 임베딩을 찾기 위해 리만 기하학과 대수적 위상수학을 적용한 비모수적 그래프 기반 차원 축소 알고리즘이다. UMAP 알고리즘은 두 단계로 구성된다: (1) 데이터셋에 대한 그래픽 표현(퍼지 심플렉스 복합체)을 계산하고, (2) 확률적 경사 하강법을 통해 그래프의 저차원 임베딩을 최적화하는 것이다. 본 연구에서는 UMAP의 두 번째 단계를 신경망 가중치에 대한 파라메트릭 최적화로 확장하여, 데이터와 임베딩 간의 파라메트릭 관계를 학습한다. 먼저, 파라메트릭 UMAP가 비모수적 버전과 유사한 성능을 보임을 입증하며, 동시에 새로운 데이터에 대해 빠른 온라인 임베딩이 가능하다는 학습된 파라메트릭 매핑의 장점을 제공함을 보여준다. 이후 우리는 UMAP를 정규화 기법으로 활용하여 오토인코더의 잠재 분포를 제약하고, 전역 구조 보존을 파라메트릭하게 조절하며, 레이블이 없는 데이터 내 구조를 효과적으로 포착함으로써 반교수 학습에서 분류기 정확도를 향상시킨다. Google Colab 실습 가이드: https://colab.research.google.com/drive/1WkXVZ5pnMrm17m0YgmtoNjM_XHdnE5Vp?usp=sharing