
초록
시각 분류 모델이 종종 이미지의 배경에 의존하는 경향이 있으며, 전경을 간과함으로써 분포 변화에 대한 강건성(로버스트성)이 저하된다는 것이 관찰되었다. 이 단점을 완화하기 위해, 모델의 관련성(signal)을 모니터링하고 이를 조작함으로써 모델이 전경 객체에 집중하도록 유도하는 방법을 제안한다. 이는 비교적 적은 수의 샘플(이미지 쌍과 해당 전경 마스크)을 이용한 미세조정(finetuning) 단계로 수행된다. 구체적으로, 모델의 관련성 맵이 (i) 배경 영역에 대해 낮은 관련성을 부여하도록, (ii) 전경에서 가능한 한 많은 정보를 반영하도록, (iii) 예측 결정에 대해 높은 신뢰도를 갖도록 유도한다. 이 방법을 비전 트랜스포머(Vision Transformer, ViT) 모델에 적용할 경우, 도메인 전이(domain shift)에 대한 강건성이 크게 향상되는 것이 관찰되었다. 더불어, 전경 마스크는 ViT 모델의 자기지도 학습(self-supervised) 변형을 통해 자동으로 얻을 수 있으므로, 추가적인 레이블링이나 감독 정보가 필요하지 않다.