11日前

クラスタリングのための表現学習:プロトタイプ散乱とポジティブサンプリングを活用して

Zhizhong Huang, Jie Chen, Junping Zhang, Hongming Shan
クラスタリングのための表現学習:プロトタイプ散乱とポジティブサンプリングを活用して
要約

従来のディープクラスタリング手法は、下流のクラスタリングタスクのために、対照学習(contrastive)または非対照学習(non-contrastive)に基づく表現学習に依存している。対照学習に基づく手法は、ネガティブペアを用いることでクラスタリングに適した一様な表現を学習するが、ネガティブペアは必然的にクラス衝突(class collision)問題を引き起こし、結果としてクラスタリング性能の低下を招くことがある。一方、非対照学習に基づく手法はクラス衝突問題を回避できるものの、得られる非一様な表現はクラスタリングの崩壊(collapse)を引き起こす可能性がある。両者の長所を活かすために、本研究では「プロトタイプ散乱」と「ポジティブサンプリング」を組み込んだ新たなエンドツーエンド型ディープクラスタリング手法、ProPosを提案する。具体的には、まずプロトタイプ表現間の距離を最大化する「プロトタイプ散乱損失(prototype scattering loss)」を導入することで、表現の一様性を向上させる。次に、ある視点のオーグメンテーションされたインスタンスと、もう一方の視点におけるサンプリングされた近傍を一致させる——つまり、埋め込み空間において真正のポジティブペアと仮定する——ことにより、クラスタ内での緊密性(within-cluster compactness)を向上させる「ポジティブサンプリングアライメント」を実現する。ProPosの利点は、クラス衝突問題の回避、一様な表現、明確に分離されたクラスタ、およびクラスタ内緊密性の維持にある。これらの損失関数をエンドツーエンド型期待最大化(expectation-maximization)フレームワーク内で最適化することで、広範な実験結果から、中規模クラスタリングベンチマークデータセットでは競争力ある性能を達成し、大規模データセットでは新たな最良性能(state-of-the-art)を確立した。ソースコードは以下のURLから公開されている:\url{https://github.com/Hzzone/ProPos}。

クラスタリングのための表現学習:プロトタイプ散乱とポジティブサンプリングを活用して | 最新論文 | HyperAI超神経