
초록
기존의 객체 검출에서의 도메인 적응(DA) 및 일반화(DG) 방법들은 시각 공간에서 특성 일치를 강제하지만, 객체의 외관 다양성과 장면 복잡성 등의 문제로 인해 객체 간 구분이 어려워 정확한 검출을 달성하는 데 한계가 있습니다. 본 논문에서는 시각-언어 사전 학습을 탐구하고 언어 공간을 통해 특성 일치를 강제함으로써 반감독 도메인 일반화 문제를 처음으로 다루고자 합니다. 우리는 새로운 크로스-도메인 서술적 다중 스케일 학습(CDDMSL) 방법을 제안하여, 다양한 도메인 특성을 가진 이미지의 설명 사이에서 임베딩 공간에서의 일치성을 최대화하기 위해 노력합니다. CDDMSL은 기존 방법들보다 크게 우수한 성능을 보여주며, DG 설정에서는 11.7%, DA 설정에서는 7.5%의 개선률을 기록하였습니다. 포괄적인 분석과 축소 연구(ablation studies)를 통해 우리의 방법의 효과성이 확인되었으며, 이는 CDDMSL이 객체 검출 작업에서의 도메인 일반화에 대한 유망한 접근 방식임을 입증합니다.