
要約
近年、ラベルなしデータを用いたクラスタリングを学習するための非教師あり深層学習手法が多数提案されている。最近の多くの手法は、データ拡張を導入し、元の画像とその変換後の画像が同一の意味的クラスタリング割り当てを持つべきであるという観点から深層クラスタリングにアプローチしている。しかし、softmax関数が最大値にのみ敏感であるため、同じクラスタに割り当てられたデータ間でも表現特徴は大きく異なる可能性があり、これにより表現特徴空間におけるクラス内多様性が高くなる。その結果、局所最適解の不安定化が生じ、クラスタリング性能の低下を引き起こすおそれがある。この課題を解決するために、本研究では「Deep Robust Clustering(DRC)」を提案する。既存手法とは異なり、DRCは意味的クラスタリング割り当てと表現特徴の両面から深層クラスタリングを捉えることで、クラス間多様性を向上させつつクラス内多様性を低下させることが可能となる。さらに、相互情報量と対照学習の内部関係を分析し、任意の相互情報量最大化問題を対照損失最小化問題に変換する一般的なフレームワークを構築した。このフレームワークをDRCに適用することで、不変な特徴と頑健なクラスタを学習することに成功した。6つの広く用いられている深層クラスタリングベンチマークにおける広範な実験結果から、DRCの安定性および精度の優位性が実証された。特にCIFAR-10において平均精度71.6%を達成し、既存の最先端手法を7.1%上回った。