
要約
最近の自己監督学習における進展は、複数の視覚タスクにおいて有望な結果を示しています。高性能な自己監督手法において重要な要素の一つは、同じ画像の異なる拡張ビューを埋め込み空間で近接させるためにデータ拡張を使用することです。しかし、一般的に使用されている拡張パイプラインは画像全体を対象としており、画像内の部分的な意味的関連性(例えば、被写体と背景)を無視しているため、偽の相関関係が学習されることにつながる可能性があります。当研究では、この問題に対処するために、「背景拡張」の一クラスを調査しました。これらの背景拡張は単純ながら非常に効果的であり、モデルが画像の背景に焦点を当てることを抑制することで、意味的に重要なコンテンツに集中するよう促します。系統的な調査を通じて、背景拡張が最新の自己監督手法(MoCo-v2, BYOL, SwAV)において多様なタスクで大幅な性能向上をもたらすことを示しました。例えば、ImageNetでの性能向上は約1-2%となっています。これにより、教師あり基準と同等の性能が達成可能となりました。さらに、ラベル数が限られている設定では改善幅がより大きくなることがわかりました(最大4.2%)。背景拡張はまた、自然的な敵対例やImageNet-9、敵対攻撃、ImageNet-Renditionsなどの分布シフトに対する堅牢性も向上させます。当研究では、背景拡張のために使用されるサリエンシー・マスク生成プロセスにおいて完全に教師なしのサリエンシー検出にも進展を遂げています。