
要約
クラスタリングは機械学習における最も基本的なタスクの一つである。近年、ディープクラスタリングはクラスタリング手法における主要なトレンドとなっている。ディープクラスタリングの効果性において、表現学習(representation learning)はしばしば重要な役割を果たすが、逆にその不適切な設計が性能低下の主な原因となることも多い。本論文では、インスタンス識別(instance discrimination)と特徴の非相関化(feature decorrelation)を用いた、クラスタリングに適した表現学習手法を提案する。本手法は古典的なスペクトルクラスタリングの性質に着想を得ており、インスタンス識別によりデータ間の類似性を学習し、特徴の非相関化により特徴間の冗長な相関を除去する。特に、個々のインスタンスをクラスとして学習させることで、インスタンス間の類似性を効果的に捉えるインスタンス識別法を採用している。詳細な実験および分析を通じて、本手法がクラスタリングに適した潜在空間(latent space)を学習可能であることを示した。また、新たなソフトマックス形式の非相関制約を設計し、表現学習における特徴の独立性を強制する。CIFAR-10およびImageNet-10を用いた画像クラスタリング評価において、それぞれ81.5%および95.4%の精度を達成した。さらに、ソフトマックス形式の制約が多様なニューラルネットワークアーキテクチャと互換性を持つことを示した。