17日前

自己教師あり細粒度対比学習におけるローカリゼーションの探求

Di Wu, Siyuan Li, Zelin Zang, Stan Z. Li
自己教師あり細粒度対比学習におけるローカリゼーションの探求
要約

自己教師付きコントラスト学習は、視覚表現の学習において大きな可能性を示している。画像分類や物体検出などのさまざまな下流タスクにおいてその成功が確認されている一方で、細粒度なシナリオにおける自己教師付き事前学習はまだ十分に探究されていない。本研究では、現在のコントラスト学習手法が背景・前景のテクスチャを記憶しやすいため、前景オブジェクトの局所化能力に制限があることを指摘する。分析の結果、細粒度な自己教師付き事前学習において、識別的なテクスチャ情報を抽出することと、オブジェクトの局所化を行うことが同等に重要であることが示された。これらの知見を基に、本研究では新たなビュー生成として画像のサリエンシー領域を切り出し交換する手法を導入し、その上でクロスビュー整合損失を用いてモデルが前景オブジェクトの局所化を学習するよう誘導する「クロスビュー・サリエンシー整合(CVSA)」というコントラスト学習フレームワークを提案する。小規模および大規模な細粒度分類ベンチマークにおける広範な実験により、CVSAが学習された表現の品質を著しく向上させることを実証した。