
要約
クラスタリングは、教師なし学習手法の一種であり、コンピュータビジョン分野で広く応用され研究されています。しかし、大規模データセットにおける視覚特徴のエンドツーエンド学習への適応に関する研究はまだ十分に行われていません。本研究では、ニューラルネットワークのパラメータとその結果得られる特徴量のクラスタ割り当てを同時学習するクラスタリング手法であるDeepClusterを提案します。DeepClusterは、標準的なk-meansアルゴリズムを使用して特徴量を反復的にグループ化し、その後の割り当てを監督情報として利用してネットワークの重みを更新します。私たちはDeepClusterをImageNetやYFCC100Mのような大規模データセットでの畳み込みニューラルネットワークの教師なし学習に適用しました。その結果得られたモデルは、すべての標準ベンチマークにおいて現行の最先端技術を大幅に上回る性能を示しました。