11일 전
제안 탐색 및 예측 균형화를 통한 오픈 어휘 객체 탐지
Peixian Chen, Kekai Sheng, Mengdan Zhang, Mingbao Lin, Yunhang Shen, Shaohui Lin, Bo Ren, Ke Li

초록
오픈-보이지션 객체 탐지(Open-vocabulary object detection, OVD)는 학습 시 사용된 어휘 이외의 새로운 카테고리 객체도 탐지할 수 있도록 어휘 크기를 확장하는 것을 목표로 한다. 최근 연구들은 사전 학습된 시각-언어 모델 내에 포함된 풍부한 지식을 활용하고 있다. 그러나 기존 방법들은 제안 영역 수준의 시각-언어 정렬 측면에서 효과적이지 못하며, 모델은 일반적으로 기저 카테고리에 대해 신뢰도 편향(confidence bias)을 보이며, 새로운 카테고리에 대한 성능이 저하되는 문제가 있다. 이러한 과제를 극복하기 위해, 우리는 제안 영역 탐색과 예측 균형화를 통합한 새로운 효과적인 OVD 프레임워크인 MEDet을 제안한다. 먼저, 거시적에서 미시적 수준으로 전이된 시각-의미 지식을 정교화하기 위한 온라인 제안 영역 탐색 기법을 설계하여, 제안 영역 수준에서 탐지 목적에 최적화된 특징 정렬을 가능하게 한다. 두 번째로, 인과 추론 이론을 기반으로 각 카테고리별 백도어 조정(Backdoor Adjustment) 기법을 도입하여 새로운 카테고리에 대한 예측 성능을 강화함으로써 전체 OVD 성능을 향상시킨다. COCO 및 LVIS 벤치마크에서 실시한 광범위한 실험을 통해 MEDet이 새로운 카테고리 객체 탐지에서 기존 방법들에 비해 우수한 성능을 보임을 입증하였으며, 특히 COCO에서 AP50가 32.6%, LVIS에서 마스크 mAP가 22.4%를 기록하였다.