事前学習と自己学習の見直し

画像認識分野において、事前学習(pre-training)は主流のアプローチである。たとえば、教師付きImageNetでの事前学習は、物体検出やセグメンテーションモデルのバックボーン初期化に広く用いられている。しかし、Heらは、ImageNetでの事前学習がCOCO物体検出タスクに与える影響は限定的であるという驚くべき結果を示している。本研究では、同様の設定下で追加データを活用する別の手法として自己学習(self-training)を検討し、ImageNet事前学習と比較してその有効性を評価した。我々の分析から、自己学習の汎用性と柔軟性が三つの新たな知見を通じて明らかになった。第一に、より強力なデータ拡張とより多くのラベル付きデータを用いるほど、事前学習の価値はさらに低下する。第二に、事前学習とは異なり、強力なデータ拡張を用いた場合、低データ環境および高データ環境の両方において、自己学習は常に有益である。第三に、事前学習が効果を発揮する状況でも、自己学習はその性能を上回る。例えば、COCO物体検出データセットにおいて、ラベル付きデータの1/5を使用する場合には事前学習が性能向上に寄与するが、すべてのラベル付きデータを使用する場合には精度を低下させる。一方、自己学習はデータセットのサイズにかかわらず、+1.3~+3.4APの明確な改善を示した。すなわち、自己学習は、ImageNetを用いた事前学習が効果を発揮しないという設定(ImageNetをCOCOに活用する)においても、良好な性能を発揮する。PASCALセグメンテーションデータセット(COCOよりも大幅に小さい)では、事前学習が顕著な効果をもたらすものの、自己学習は事前学習モデルをさらに上回る性能を達成した。COCO物体検出においては、54.3APを達成し、最も強力なSpineNetモデルを+1.5AP上回った。PASCALセグメンテーションでは、90.5 mIOUを達成し、DeepLabv3+による従来の最先端性能を+1.5% mIOU上回った。