
要約
自己教師あり視覚表現学習は、近年大きな研究関心を集めている。従来、自己教師あり表現の評価は、さまざまな下流タスクへの転移性能によって行われることが一般的であるが、本研究では、その表現の解釈可能性(すなわち、原始的な表現にエンコードされた意味情報を理解する能力)を測定する問題に着目する。この問題を、表現と手動でラベル付けされた概念の空間との間の相互情報量を推定する問題として定式化する。これを定量的に測定するために、デコーディング・ボトルネックを導入する。すなわち、概念から表現空間内のデータクラスタへとマッピングする単純な予測器によって情報が捕捉されなければならない。この手法を「逆線形プローブ(reverse linear probing)」と呼ぶが、これにより表現の意味的質を敏感に反映する単一の数値を得ることができる。この指標は、単一の属性(例:「赤」や「りんご」)ではなく、ラベル付き概念の組み合わせ(例:「赤いりんご」)と相関している場合にもその特徴を検出可能である。さらに、教師あり分類器を用いて、豊かな属性空間を持つ大規模データセットを自動的にラベル付けする手法の可能性も提案する。これらの知見を基に、多数の自己教師あり表現を評価し、解釈可能性の観点から順位付けを行い、従来の線形プローブによる評価とは異なる結果の相違点を明らかにする。