13日前
外部ガイダンスを用いた画像クラスタリング
Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Jianping Fan, Xi Peng

要約
クラスタリングの核となるのは、事前知識を活用して教師信号を構築することである。データの凝縮性に基づく古典的なk-meansから、自己教師学習によって導かれる最近の対照的クラスタリングに至るまで、クラスタリング手法の進化は本質的に教師信号の発展と対応している。現在、多くの研究努力がデータ内に内在する教師信号の掘り起こしに向けられている。しかし、クラスタリングに自然に寄与する可能性を秘めている豊富な外部知識、たとえば意味的記述などは、残念ながら無視されがちである。本研究では、与えられたデータとは表面上関係のない外部知識を新たな教師信号として活用し、クラスタリングをガイドすることを提案する。このアイデアの実装と検証のため、外部知識を用いたクラスタリング手法(Text-Aided Clustering, TAC)を設計した。TACはWordNetのテキスト的意味情報を活用して画像クラスタリングを支援する。具体的には、TACは画像間の区別性を最も高めるWordNetの名詞を事前に選定・検索し、特徴量の識別力を向上させる。その後、画像とテキストのモダリティを相互に知識蒸留(mutual distillation)することで、クロスモーダルな近傍情報を相互に強化し、画像クラスタリングの性能を向上させる。実験の結果、TACは広く用いられる5つの画像クラスタリングベンチマークおよびより挑戦的な3つのベンチマークにおいて、最先端の性能を達成しており、特にImageNet-1Kの全データセットを用いた評価においても優れた結果を示した。