
要約
本稿では、新しい非教師ありシアンセ型ニューラルネットワークの学習方式および損失関数に基づく可視化アルゴリズム「Differentiating Embedding Networks(DEN)」を提案する。シアンセ型ニューラルネットワークは、データセット内の特定のサンプルペア間の差別的特徴または類似特徴を抽出し、それらを用いて低次元空間にデータセットを埋め込む。UMAPや$t$-SNEといった従来の可視化手法とは異なり、DENはパラメトリックな手法であり、SHAP(SHapley Additive exPlanations)などの解釈技術を用いて解析可能である。DENの解釈のために、可視化結果の上にエンドツーエンドのパラメトリックなクラスタリングアルゴリズムを構築し、SHAPスコアを活用して、クラスタリング結果に基づき可視化画像に現れる構造を理解する上で重要なサンプル空間内の特徴を特定する。我々は、画像データおよびscRNA-seqデータを含む多様なデータセットにおいて、DENの可視化結果を既存手法と比較した。その結果、クラスタ数に関する事前知識を必要としないにもかかわらず、最先端の性能を達成しており、FashionMNISTにおいては新たな最先端性能を記録した。さらに、データセットの差別的特徴を同定する能力を実証した。コードはhttps://github.com/isaacrob/DENにて公開されている。