2달 전

언어 안내 기능 정렬을 통한 객체 검출을 위한 반감독 도메인 일반화

Sina Malakouti; Adriana Kovashka
언어 안내 기능 정렬을 통한 객체 검출을 위한 반감독 도메인 일반화
초록

기존의 객체 검출에서의 도메인 적응(DA) 및 일반화(DG) 방법들은 시각 공간에서 특성 일치를 강제하지만, 객체의 외관 다양성과 장면 복잡성 등의 문제로 인해 객체 간 구분이 어려워 정확한 검출을 달성하는 데 한계가 있습니다. 본 논문에서는 시각-언어 사전 학습을 탐구하고 언어 공간을 통해 특성 일치를 강제함으로써 반감독 도메인 일반화 문제를 처음으로 다루고자 합니다. 우리는 새로운 크로스-도메인 서술적 다중 스케일 학습(CDDMSL) 방법을 제안하여, 다양한 도메인 특성을 가진 이미지의 설명 사이에서 임베딩 공간에서의 일치성을 최대화하기 위해 노력합니다. CDDMSL은 기존 방법들보다 크게 우수한 성능을 보여주며, DG 설정에서는 11.7%, DA 설정에서는 7.5%의 개선률을 기록하였습니다. 포괄적인 분석과 축소 연구(ablation studies)를 통해 우리의 방법의 효과성이 확인되었으며, 이는 CDDMSL이 객체 검출 작업에서의 도메인 일반화에 대한 유망한 접근 방식임을 입증합니다.

언어 안내 기능 정렬을 통한 객체 검출을 위한 반감독 도메인 일반화 | 최신 연구 논문 | HyperAI초신경