개선된 객체 검출을 위한 로컬-글로벌 대조적 학습

시각적 도메인 간의 차이가 종종 객체 검출 성능에 영향을 미칩니다. 이미지-이미지 변환은 이러한 효과를 완화할 수 있으며, 대조적 접근 방식은 비지도 환경에서 이미지-이미지 매핑을 학습하는 것을 가능하게 합니다. 그러나 기존 방법들은 여러 객체 인스턴스가 포함된 내용이 풍부한 장면을 처리하는 데 자주 실패하며, 이는 불만족스러운 검출 성능으로 나타납니다. 이러한 인스턴스 수준의 내용에 대한 감도는 일반적으로 객체 주석을 통해만 얻어질 수 있으며, 이를 얻는 것은 비용이 많이 들 수 있습니다.이 문제를 해결하기 위해, 우리는 크로스-도메인 객체 검출을 특별히 목표로 하는 새로운 이미지-이미지 변환 방법을 제시합니다. 우리의 접근 방식은 공간적 주의 마스크를 통해 객체 인스턴스의 외관을 최적화하는 귀납적 사전 지식을 갖춘 대조적 학습 프레임워크로 구성됩니다. 이는 장면을 대상 객체 인스턴스와 관련된 전경 영역과 비객체 배경 영역으로 암묵적으로 구분합니다. 변환 과정에서 객체 인스턴스를 명시적으로 고려하기 위해 객체 주석에 의존하지 않고, 우리의 접근 방식은 로컬-글로벌 정보를 대조하여 객체를 표현하는 방법을 학습합니다. 이는 도메인 변화 하에서 객체 주석이나 검출기 모델 미세 조정 없이 우수한 검출 성능을 달성하는 덜 연구된 과제를 탐구할 수 있게 해줍니다.우리는 세 가지 어려운 벤치마크에서 여러 크로스-도메인 객체 검출 설정들을 실험하고 최신 기술 수준의 성능을 보고합니다.프로젝트 페이지: https://local-global-detection.github.io