T-분포 확률적 이웃 임베딩
T – 분산 랜덤 이웃 임베딩이는 차원 축소를 위한 머신 러닝 방법으로, 연관 패턴을 식별하는 데 사용할 수 있습니다. 가장 큰 장점은 지역적 구조를 보존한다는 것입니다. 즉, 고차원 데이터 공간에서 비슷한 거리를 가진 점은 저차원으로 투영했을 때도 여전히 비슷하다는 것을 의미합니다.
T-SNE 기능
저차원 공간에서는 긴꼬리 분포가 더 굵은 t 분포를 사용하면 혼잡과 최적화 문제를 피할 수 있습니다.
T-SNE 경사 우위
- 서로 다른 지점의 경우, 더 작은 거리를 사용하여 더 큰 기울기를 생성하여 지점을 밀어냅니다.
- 이러한 반발은 무한하지 않은데, 이는 서로 다른 지점이 너무 멀리 떨어져 있는 것을 피하기 위해서이다.
T-SNE만으로는 충분하지 않습니다
- T-SNE는 주로 시각화에 사용되므로 테스트 세트의 차원 축소 등 다른 측면에서는 성능이 좋지 않습니다. 명시적인 추정 부분이 없으므로 테스트 세트에서 직접 축소할 수 없습니다.
- T-SNE는 지역적 특징을 보존하는 경향이 있습니다. 높은 고유 차원을 가진 데이터 세트의 경우 이를 2~3차원 공간에 완전히 매핑하는 것은 불가능합니다.
- T-SNE에는 고유한 최적 솔루션이나 추정 부분이 없습니다. 추정을 위해서는 차원 축소를 고려한 다음 회귀 방정식과 같은 모델을 구축해야 합니다.
- 학습 속도가 너무 느리고, 많은 트리 기반 알고리즘이 T-SNE에서 개선되었습니다.