SRCD: 단일 영역 일반화 객체 검출을 위한 복합 영역 의미론적 추론

본 논문은 단일 도메인 일반화 객체 검출(Single-DGOD)을 위한 새로운 프레임워크를 제시합니다. 여기서 우리는 자기 증강 복합 크로스-도메인 샘플의 의미 구조를 학습하고 유지하여 모델의 일반화 능력을 향상시키는 데 관심이 있습니다. 여러 소스 도메인에서 훈련된 DGOD와 달리, 단일 소스 도메인만으로 여러 타겟 도메인에 잘 일반화하는 Single-DGOD는 훨씬 더 어려운 과제입니다. 기존 방법들은 대부분 의미 공간을 분리하거나 압축하여 도메인 불변 특성을 학습하는 DGOD와 유사한 접근 방식을 취하지만, 두 가지 잠재적인 한계가 있을 수 있습니다: 1) 극히 적은 단일 도메인 데이터로 인해 발생하는 가짜 속성-라벨 상관 관계; 2) 의미 구조 정보가 보통 무시되는 경우, 즉 샘플 내 인스턴스 수준의 의미 관계의 친밀도가 모델의 일반화에 중요한 역할을 한다는 것을 발견했습니다.본 논문에서는 Single-DGOD를 위해 복합 도메인 의미 추론(Semantic Reasoning with Compound Domains, SRCD)을 소개합니다. 특히, 제안된 SRCD는 두 가지 주요 구성 요소를 포함하며, 이는 텍스트 기반 자기 증강(Texture-Based Self-Augmentation, TBSA) 모듈과 지역-전역 의미 추론(Local-Global Semantic Reasoning, LGSR) 모듈입니다. TBSA는 이미지 수준에서 빛, 그림자, 색상 등의 라벨과 관련 없는 속성들의 영향을 효과적으로 제거하기 위해 경량적이면서 효율적인 자기 증강을 목표로 합니다. 또한 LGSR은 인스턴스 특성 간의 의미적 관계를 더욱 모델링하여 본질적인 의미 구조를 발굴하고 유지하는 데 사용됩니다. 다수의 벤치마크에서 수행된 광범위한 실험 결과는 제안된 SRCD의 유효성을 입증합니다.