深層クラスタリングにおける測度伝播

深層モデルは、教師あり学習と教師なし学習の両方で最先端の成果を向上させています。例えば、深層埋め込みクラスタリング(Deep Embedded Clustering: DEC)は、表現学習にスタック型オートエンコーダーを使用することで、教師なしクラスタリング性能を大幅に向上させました。しかし、深層モデリングの一つの弱点は、元の空間での局所近傍構造が潜在空間で必ずしも保たれないことです。局所幾何学を保つためには、グラフラプラシアン正則化を用いた様々な手法(例:スペクトラルクラスタリングやラベル伝播)が教師あり学習および半教師あり学習の文献で提案されています。本論文では、深層表現学習の強みと測度伝播(Measure Propagation: MP)というKLダイバージェンスに基づくグラフ正則化手法を組み合わせます。MPの主な仮定は、元の空間で2つのデータ点が近接している場合、それらは同じクラスに属する可能性が高いということです。これはクラスメンバーシップ分布のKLダイバージェンスによって測定されます。この仮定を教師なし学習シナリオでも採用することにより、我々は深層埋め込みクラスタリングと測度伝播を組み合わせたモデル(Deep Embedded Clustering Aided by Measure Propagation: DECAMP)を提案します。DECAMPを短文クラスタリングタスクで評価しました。3つの公開データセットにおいて、DECAMPは他の最先端ベースラインと競争力のある結果を示しました。これらのベースラインには、クラスタリングプロセスに使用される単語埋め込みを生成するために追加データを使用するものも含まれています。例えばStackoverflowデータセットでは、DECAMPが79%のクラスタリング精度を達成し、既存のすべてのベースラインよりも約5%高い結果となりました。これらの経験的な結果から、DECAMPが教師なし学習にとって非常に効果的な方法であることが示唆されます。