2달 전

SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection SIA-OVD: 이미지 영역 간격을 연결하기 위한 형상 불변 어댑터 개방어휘 검출에서

Zishuo Wang; Wenhao Zhou; Jinglin Xu; Yuxin Peng
SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection
SIA-OVD: 이미지 영역 간격을 연결하기 위한 형상 불변 어댑터 개방어휘 검출에서
초록

오픈 보카브러리 검출(OVD)은 인스턴스 수준의 주석 없이 새로운 객체를 감지하여 오픈 월드 객체 검출을 더 낮은 비용으로 수행하는 것을 목표로 합니다. 기존의 OVD 방법들은 CLIP과 같은 시각-언어 사전 학습 모델(VLM)의 강력한 오픈 보카브러리 이미지-텍스트 정렬 능력을 주로 활용합니다. 그러나 CLIP은 이미지-텍스트 쌍으로 훈련되어 이미지 내부의 국소 영역에 대한 지각 능력이 부족하여, 이미지와 영역 표현 사이의 차이가 발생합니다. 이를 직접 OVD에 적용하면 영역 분류가 불정확해집니다. 우리는 이 이미지-영역 간 차이가 관심 영역(RoI) 추출 과정에서 영역 특징 맵의 변형에 의해 주로 발생함을 발견했습니다. 이러한 불정확한 영역 분류를 완화하기 위해, 우리는 OVD 작업에서 이미지-영역 간 차이를 연결하는 새로운 형태 불변 어댑터인 SIA-OVD를 제안합니다. SIA-OVD는 다양한 형태의 영역에 대해 일련의 특징 어댑터를 학습하고, 각 영역에 최적의 어댑터를 선택하기 위한 새로운 어댑터 할당 메커니즘을 설계합니다. 적응된 영역 표현은 CLIP에서 학습된 텍스트 표현과 더 잘 일치할 수 있습니다. 광범위한 실험 결과, SIA-OVD는 형태 변형으로 인한 이미지와 영역 간 차이를 해결하여 영역 분류 정확도를 효과적으로 개선한다는 것이 입증되었습니다. SIA-OVD는 COCO-OVD 벤치마크에서 대표적인 방법들보다 상당한 개선을 이루었습니다. 코드는 https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 에서 확인할 수 있습니다.

SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection SIA-OVD: 이미지 영역 간격을 연결하기 위한 형상 불변 어댑터 개방어휘 검출에서 | 최신 연구 논문 | HyperAI초신경