2ヶ月前

centroid-based 深層クラスタリングにおける再クラスタリングの壁を打破する

Lukas Miklautz; Timo Klein; Kevin Sidak; Collin Leiber; Thomas Lang; Andrii Shkabrii; Sebastian Tschiatschek; Claudia Plant
centroid-based 深層クラスタリングにおける再クラスタリングの壁を打破する
要約

本研究探讨了基于质心的深度聚类(DC)算法中的一个重要现象:性能在初期迅速提升后很快达到饱和状态。研究者通常通过周期性重新聚类来应对早期饱和问题,但我们的研究表明这种方法不足以解决性能停滞的问题。我们将这一现象称为“重新聚类障碍”(reclustering barrier),并通过实证分析展示了重新聚类障碍发生的时间、其潜在机制以及如何利用我们提出的算法BRB打破这一障碍。BRB避免了对初始聚类的过早过度承诺,并能够在概念上保持简单的同时,实现对重新初始化的聚类目标的持续适应。我们将该算法应用于广泛使用的基于质心的DC算法中,结果表明:(1) BRB在广泛的聚类基准测试中一致提高了性能,(2) BRB使得从头开始训练成为可能,(3) 当与对比损失结合时,BRB在性能上能够与最先进的DC算法相媲美。我们已在https://github.com/Probabilistic-and-Interactive-ML/breaking-the-reclustering-barrier 公开了我们的代码和预训练模型。この研究では、質心ベースの深層クラスタリング(Deep Clustering: DC)アルゴリズムにおける重要な現象について調査しました。その現象とは、初期に急速なパフォーマンス向上が見られる後、すぐにパフォーマンスが飽和することです。実務者たちは一般的に、この早期飽和問題に対処するために周期的な再クラスタリングを行いますが、我々の研究はこれがパフォーマンスの停滞を解決するのに十分でないことを示しています。私たちはこの現象を「再クラスタリング障壁」(reclustering barrier)と呼び、再クラスタリング障壁がいつ発生し、その背後のメカニズムは何か、そしてどのようにして提案したアルゴリズムBRBでこの障壁を打破できるかを実証的に示します。BRBは初期クラスタリングへの過度な早期コミットメントを回避し、概念的には単純でありながら、再初期化されたクラスタリング目標への継続的な適応を可能にします。広く使用されている質心ベースのDCアルゴリズムに当該アルゴリズムを適用した結果、以下のことが明らかになりました。(1) BRBは幅広いクラスタリングベンチマークにおいて一貫してパフォーマンスを向上させます。(2) BRBはゼロから学習を行うことを可能にします。(3) 対照損失と組み合わせると、BRBは最先端のDCアルゴリズムと競合するパフォーマンスを達成します。私たちのコードと事前学習済みモデルは https://github.com/Probabilistic-and-Interactive-ML/breaking-the-reclustering-barrier で公開されています。

centroid-based 深層クラスタリングにおける再クラスタリングの壁を打破する | 最新論文 | HyperAI超神経