
要約
深層学習(DL)はクラスタリングの非教師ありタスクにおいて大きな可能性を示しています。しかし、古典的な(つまり、非深層の)クラスタリングでは、ノンパラメトリックアプローチの利点がよく知られている一方で、ほとんどの深層クラスタリング手法はパラメトリックです。すなわち、事前に定義され固定されたクラスタ数Kが必要となります。Kが未知の場合には、モデル選択基準を使用して最適値を選択することが計算量的に高価になる可能性があり、特にDLでは訓練過程を多次元に繰り返す必要があるためです。本研究では、このギャップを埋めるために、学習中にKを推論する必要がない効果的な深層クラスタリング手法を提案します。分割/統合フレームワーク、Kの変化に対応する動的なアーキテクチャ、および新しい損失関数を使用することで、提案手法は既存のノンパラメトリック手法(古典的および深層の両方)を上回ります。既存の少数の深層ノンパラメトリック手法はスケーラビリティに欠ける一方で、我々は初めてImageNetでのこのような手法の性能を報告することによりその有用性を示しました。また、Kを推論することの重要性についても示しており、想定されるK値が真値から遠ざかると性能が低下するという点を特に不均衡データセット上で実証しています。当該コードは https://github.com/BGU-CS-VIL/DeepDPM で公開されています。