11日前

選択的擬ラベルクラスタリング

Louis Mahon, Thomas Lukasiewicz
選択的擬ラベルクラスタリング
要約

深層ニューラルネットワーク(DNN)は、高次元データのクラスタリングという困難なタスクに対処する手段を提供する。DNNは有用な特徴量を抽出し、クラスタリング手法に適した低次元表現を生成することができる。クラスタリングは通常、教師ラベルが利用できない完全な教師なし設定で行われるため、DNNによる特徴抽出器をどのように訓練するかという問題が生じる。現在最も精度の高いアプローチは、DNNの学習とクラスタリングの目的を統合するものであり、クラスタリングプロセスから得られる情報を活用してDNNを更新し、より良いクラスタリング用の特徴量を生成する。しかし、このアプローチの問題点として、クラスタリングアルゴリズムによって生成される「擬似ラベル」がノイズを含んでおり、その誤りがDNNの学習を損なうことがあるという点がある。本論文では、最も信頼性の高い擬似ラベルのみを用いてDNNを訓練する「選択的擬似ラベルクラスタリング」を提案する。さらに、特定の条件下で性能向上が理論的に保証されることを形式的に証明している。画像クラスタリングというタスクに適用した結果、3つの代表的な画像データセットにおいて、最先端の性能を達成した。実装コードは https://github.com/Lou1sM/clustering にて公開されている。

選択的擬ラベルクラスタリング | 最新論文 | HyperAI超神経