
要約
画像クラスタリングは、人間の監督なしにラベルを生成することを目的とする、特に困難なコンピュータビジョンの課題である。近年の進展は、まず有用な意味情報を学習した後、画像表現をクラスタリングするという自己教師学習戦略の活用に注目している。しかし、こうした多段階アルゴリズムは計算時間の増加を引き起こし、最終的な性能は第一段階に強く依存するという問題がある。本研究では、自己教師学習アプローチを拡張し、意味のある表現の学習と対応するラベルの付与を同時に実現する新たな単一段階クラスタリング手法を提案する。この目的は、分類器ネットワークを通じて離散表現を自己教師学習枠組みに統合することで達成される。具体的には、提案するクラスタリング目的関数は相互情報量を用い、統合された離散表現と離散確率分布の間の依存性を最大化する。この離散確率分布は、学習された潜在表現と学習可能なプロトタイプ群を比較することで、自己教師学習プロセスから導出される。分類器の学習性能を向上させるために、複数のクロップビュー間における相互情報量を共同で適用する。実証的な結果から、提案フレームワークはCIFAR-10およびCIFAR-100/20データセットにおいて、それぞれ平均精度89.1%および49.0%という、最先端技術を上回る性能を示した。さらに、提案手法はパラメータ設定に対して高いロバスト性を示しており、他のデータセットへの適用も容易であることが示された。