
초록
최근 자기 감독 학습의 발전은 여러 시각적 작업에서 유망한 결과를 보여주고 있습니다. 성능이 뛰어난 자기 감독 방법론의 중요한 요소는 동일한 이미지의 다양한 증강된 뷰를 임베딩 공간에서 가깝게 배치하도록 모델을 훈련시키는 데이터 증강 기법의 사용입니다. 그러나 일반적으로 사용되는 증강 파이프라인은 이미지를 전체적으로 처리하여, 이미지 일부(예: 주제와 배경)의 의미적 관련성을 무시하는 경우가 있어 잘못된 상관관계를 학습할 수 있습니다. 우리의 연구는 이러한 문제를 해결하기 위해, 모델이 이미지 배경에 초점을 맞추는 것을 방지함으로써 의미적으로 중요한 내용에 집중하도록 유도하는 간단하면서도 매우 효과적인 '배경 증강' 기법을 조사합니다. 체계적인 분석을 통해 우리는 배경 증강이 MoCo-v2, BYOL, SwAV 등 최신 자기 감독 방법론에서 다양한 작업에서 성능 향상에 크게 기여함을 보여줍니다(예: ImageNet에서 약 1-2% 개선). 또한 제한된 라벨 설정에서는 이 개선이 더욱 크다는 것을 발견했습니다(최대 4.2%). 배경 증강은 자연적 적대 예제, ImageNet-9, 적대 공격, ImageNet-Renditions 등의 분포 이동에 대한 견고성도 향상시킵니다. 우리는 배경 증강에 사용되는 주요성 마스크 생성 과정에서 완전히 비지도 주요성 검출에도 진전을 이루었습니다.