13일 전
차원 감소 도구가 작동하는 방식 이해하기: 데이터 시각화를 위한 t-SNE, UMAP, TriMAP, PaCMAP 해독을 위한 실증적 접근
Yingfan Wang, Haiyang Huang, Cynthia Rudin, Yaron Shaposhnik

초록
차원 축소(DR) 기법 중 t-SNE, UMAP, TriMAP 등은 다양한 실세계 데이터셋에서 뛰어난 시각화 성능을 보여왔다. 이러한 방법들이 항상 직면해온 과제는 전역 구조(global structure)와 국소 구조(local structure)의 보존 사이의 트레이드오프이다. 즉, 이러한 기법들은 전역 구조나 국소 구조 중 하나는 잘 보존할 수 있지만, 둘 다 동시에 보존하는 것은 어렵다. 본 연구의 주요 목표는 DR 기법이 국소 구조와 전역 구조를 동시에 보존하는 데 있어 어떤 요소가 중요한지를 이해하는 것이다. 알고리즘 설계 시 선택한 요소들이 생성하는 저차원 임베딩에 미치는 실증적 영향을 제대로 이해하지 못한 채 더 나은 방법을 설계하는 것은 어렵기 때문이다. 국소 구조 보존을 위한 목표 달성을 위해, 성공적인 DR 기법들의 메커니즘에 대한 새로운 이해를 바탕으로, DR 손실 함수 설계를 위한 몇 가지 유용한 설계 원칙을 제시한다. 전역 구조 보존을 위한 목표 달성을 위해, 분석을 통해 보존해야 할 구성 요소의 선택이 중요함을 밝혀낸다. 이러한 통찰을 활용하여 국소 구조와 전역 구조를 동시에 보존할 수 있는 새로운 DR 알고리즘인 '쌍별 제어 다층 근사 투영(PaCMAP)'을 설계하였다. 본 연구는 DR 알고리즘을 구축할 때 어떤 설계 선택을 해야 하며, 어떤 선택은 피해야 하는지를 보여주는 예상치 못한 통찰을 제공한다.