敵対的ディープ埋め込みクラスタリング:特徴のランダム性と特徴のドリフトの間のより良いトレードオフについて

近年、深層自己符号化器(deep autoencoders)を用いたクラスタリングは広く研究されている。現在のアプローチは、潜在空間におけるデータポイントのクラスタリングと、埋め込み特徴の同時学習に依拠している。いくつかの高意味的(high-semantic)データセットにおいて、多数の深層クラスタリング手法が浅層モデルを上回る良好な性能を示しているが、こうしたモデルに潜む重要な欠陥が無視されてきた。明確な教師信号が存在しない状況下では、埋め込みクラスタリングの目的関数が、信頼性の低い偽ラベル(pseudo-labels)に基づいて学習を行うことにより、潜在空間を歪めてしまう可能性がある。その結果、代表的でない特徴が学習され、これにより識別能力が低下し、さらに劣化した偽ラベルが生成されるという悪循環が生じる。このランダムな識別特徴の影響を軽減するため、現代の自己符号化器に基づくクラスタリング手法では、事前学習段階で再構成損失(reconstruction loss)を用いること、およびクラスタリング段階での正則化項として用いることが提案されている。しかし、クラスタリングと再構成のトレードオフは、「特徴のずれ」(Feature Drift)現象を引き起こす可能性がある。本論文では、敵対的学習(adversarial training)を用いて、「特徴のランダム性」(Feature Randomness)と「特徴のずれ」(Feature Drift)という二つの問題を同時に解決する、新たな自己符号化器ベースのクラスタリングモデルであるADEC(Adversarial Deep Embedded Clustering)を提案する。標準的な実データセットを用いた実証実験により、本モデルがこれらの問題に対処する適切性を示した。実験結果は、本モデルが最先端の自己符号化器ベースクラスタリング手法を上回ることを裏付けている。