
要約
画像からの自己教師学習の目的は、大規模な画像データセットに対して意味的ラベルを必要としない前処理タスク(pretext task)を用いて、意味的に意味のある画像表現を構築することである。多くの前処理タスクは、画像変換に対して共変(covariant)な表現を導くが、本研究では、むしろ意味的表現はこのような変換に対して不変(invariant)であるべきであると主張する。具体的には、前処理タスクに基づいて不変表現を学習する「プリテキスト不変表現学習」(Pretext-Invariant Representation Learning, PIRL;発音は「ピアール」)を提案する。PIRLでは、一般的に用いられるジグソーパズルを解くという前処理タスクを採用する。実験の結果、PIRLは学習された画像表現の意味的品質を著しく向上させることを確認した。本手法は、自己教師学習におけるいくつかの代表的なベンチマークにおいて、新たな最先端性能を達成した。さらに、教師なし学習であるにもかかわらず、物体検出のための画像表現学習において、教師付き事前学習を上回る性能を発揮した。総合的にみて、本研究の結果は、良好な不変性を持つ画像表現を自己教師学習によって学習する可能性が極めて高いことを示している。