
要約
我々は、高次元データを2次元または3次元の地図上における各データポイントの位置として可視化するための新しい技術「t-SNE(t-distributed Stochastic Neighbor Embedding)」を提案する。この手法は、HintonとRoweis(2002)が提唱した確率的近傍埋め込み(Stochastic Neighbor Embedding)の変種であり、最適化がはるかに容易であり、地図中央部に点群が密集する傾向を大幅に軽減することで、著しく優れた可視化結果を実現している。t-SNEは、複数の異なるが関連する低次元多様体(manifold)上に存在する高次元データ(たとえば、複数の視点から撮影された複数クラスの物体画像など)に対して、さまざまなスケールの構造を一度のマップで明確に示す点で、従来の手法よりも優れている。非常に大きなデータセットの構造を可視化する場合、t-SNEは近傍グラフ上のランダムウォークを用いることで、全データの隠れた構造がデータのサブセットの表示に影響を与える仕組みを実現している。広範なデータセットを用いた実験により、t-SNEの性能を検証し、Sammonマッピング、Isomap、局所線形埋め込み(Locally Linear Embedding)など、他の多くの非パラメトリック可視化手法と比較した。その結果、ほぼすべてのデータセットにおいて、t-SNEが他の手法よりもはるかに優れた可視化結果を生成することが明らかになった。