
要約
クラスタリングと表現学習を統合することは、深層ニューラルネットワークにおける教師なし学習において最も有望なアプローチの一つである。しかし、これを単純に行うと、退化した解をもたらす不適切な定式化(ill-posed)な学習問題に直面する。本論文では、こうした問題を根本的に解決する新たな原理的学習定式化を提案する。本手法は、ラベルと入力データのインデックス間の情報量を最大化することによって得られる。我々は、この基準が標準的な交差エントロピー最小化を最適輸送問題に拡張することを示し、Sinkhorn-Knoppアルゴリズムの高速版を用いて、数百万枚の入力画像と数千のラベルに対して効率的に解くことを実現した。得られた手法は、手動ラベルなしで視覚データを自己ラベル付けし、高い競争力を持つ画像表現を学習可能である。本手法は、SVHN、CIFAR-10、CIFAR-100、ImageNetにおけるAlexNetおよびResNet-50において、最先端の表現学習性能を達成し、監視学習ベースのPascal VOC検出タスクを上回る初の自己教師付きAlexNetを実現した。コードおよびモデルは公開されている。