
近年、多くの競争的な手法が、データの増強(augmentation)から得られる表現同士の相互情報量(mutual information)を最大化することで、教師なし表現学習に取り組んできた。このアプローチにより得られる表現は確率的な増強戦略に対して不変性を有し、クラスタリングや分類といった下流タスクに利用可能となる。しかし、データの増強は画像の多くの特徴を保持するため、データ内に容易に見つかる特徴に依存する非最適な表現が得られる可能性がある。本研究では、相互情報量を最大化するためのグリーディ(貪欲)または局所的最適化手法(例えば確率的勾配最適化)が、相互情報量基準の局所最適解に収束することを示した。このような手法によって得られる表現は、複雑な下流タスクにおいても理想的ではない。これまでの先行研究では、この問題の特定および解決が明示的に行われていなかった。そこで本研究では、階層的に複数の離散的表現を画像に対して計算する「深層階層的オブジェクトグループ化(Deep Hierarchical Object Grouping; DHOG)」を提案する。この手法は、最終的に相互情報量の最適化をより良く達成する表現を生成する。また、これらの表現が、データを潜在的なオブジェクトクラスに分類するという下流タスクとより良い整合性を示すことも明らかにした。DHOGは、ターゲット表現がデータの離散ラベルであるため、自然な下流タスクとして教師なしクラスタリングに適用した。従来の手法に必須であった事前フィルタリングやSobelエッジ検出を一切用いずに、3つの主要なベンチマークにおいて新たなSOTA(最先端)性能を達成した。具体的には、CIFAR-10で4.3%、CIFAR-100-20で1.5%、SVHNで7.2%の精度向上を実現した。