2달 전
CoDet: 공유 발생을 기반으로 한 지역-단어 정렬을 위한 개방형 어휘 객체 검출
Ma, Chuofan ; Jiang, Yi ; Wen, Xin ; Yuan, Zehuan ; Qi, Xiaojuan

초록
이미지-텍스트 쌍에서 신뢰할 수 있는 영역-단어 정렬을 도출하는 것은 오픈 보카브러리 객체 검출을 위한 객체 수준의 시각-언어 표현을 학습하는 데 매우 중요합니다. 기존 방법들은 일반적으로 사전 훈련된 또는 자기 훈련된 시각-언어 모델에 의존하여 정렬을 수행하지만, 이는 위치 결정 정확도나 일반화 능력에서 제한점을 가질 수 있습니다. 본 논문에서는 이러한 사전 정렬된 시각-언어 공간에 대한 의존성을 극복하기 위해, 영역-단어 정렬을 공통으로 발생하는 객체 발견 문제로 재정식화한 새로운 접근 방식인 CoDet를 제안합니다. 직관적으로, 캡션에서 공유된 개념을 언급하는 이미지를 그룹화하면, 해당 개념과 관련된 객체들이 그룹 내에서 높은 공통 발생률을 나타낼 것입니다. CoDet는 이러한 시각적 유사성에 기반하여 공통으로 발생하는 객체들을 발견하고, 이를 공유된 개념과 정렬시킵니다. 광범위한 실험 결과를 통해 CoDet가 오픈 보카브러리 검출에서 우수한 성능과 강력한 확장성을 보임을 입증하였습니다. 예를 들어, 시각 백본의 크기를 확대함으로써 CoDet는 OV-LVIS 데이터셋에서 37.0 $\text{AP}^m_{novel}$와 44.7 $\text{AP}^m_{all}$를 달성하였으며, 이는 이전 최고 기술(SoTA)보다 각각 4.2 $\text{AP}^m_{novel}$와 9.8 $\text{AP}^m_{all}$를 초월하였습니다. 코드는 https://github.com/CVMI-Lab/CoDet 에서 제공됩니다.