
초록
우리는 고차원 데이터를 두 차원 또는 세 차원 맵 상의 각 데이터 포인트의 위치로 시각화하는 새로운 기법인 "t-SNE(t-distributed Stochastic Neighbor Embedding)"를 제안한다. 이 기법은 Hinton과 Roweis(2002)가 제안한 확률적 이웃 임베딩(Stochastic Neighbor Embedding)의 변형으로, 최적화가 훨씬 용이하며, 맵의 중심부로 포인트들이 모여드는 경향을 줄여 훨씬 더 우수한 시각화 결과를 제공한다. t-SNE는 다양한 스케일에서 구조를 동시에 드러내는 단일 맵을 생성하는 데 기존 기법보다 훨씬 우수하다. 특히 여러 개의 서로 관련된 저차원 매니폴드 위에 존재하는 고차원 데이터(예: 다양한 시점에서 촬영된 다수 클래스의 객체 이미지)의 경우 이 점이 특히 중요하다. 매우 큰 데이터셋의 구조를 시각화할 때, t-SNE는 이웃 그래프 상에서의 무작위 보행(random walk)을 활용하여 전체 데이터의 암묵적인 구조가 데이터의 부분집합을 어떻게 표현할지에 영향을 미치도록 할 수 있음을 보여준다. 우리는 다양한 유형의 데이터셋에 대해 t-SNE의 성능을 검증하고, Sammon 매핑, Isomap, 국소선형 임베딩(Locally Linear Embedding) 등 다양한 비모수적 시각화 기법과 비교한다. 거의 모든 데이터셋에서 t-SNE가 다른 기법들보다 훨씬 우수한 시각화 결과를 도출함을 확인할 수 있다.