13일 전
오픈-보라티지 객체 탐지를 위한 영역의 가방 정렬
Size Wu, Wenwei Zhang, Sheng Jin, Wentao Liu, Chen Change Loy

초록
사전 학습된 시각-언어 모델(VLM)은 대규모 데이터셋에서 시각과 언어 표현 간의 정렬을 학습하며, 각 이미지-텍스트 쌍은 일반적으로 여러 의미적 개념의 집합(bag of semantic concepts)을 포함한다. 그러나 기존의 오픈-보라지 객체 탐지기들은 개별 영역 임베딩을 VLM에서 추출된 해당 특징과 각각 정렬하는 방식을 채택하고 있다. 이러한 설계는 장면 내 의미적 개념의 구성 구조를 충분히 활용하지 못하게 되며, 이 구조는 VLM에 의해 암묵적으로 학습될 수 있음에도 불구하고 말이다. 본 연구에서는 개별 영역을 넘어서 영역의 집합(bag of regions)의 임베딩을 정렬하는 방식을 제안한다. 제안된 방법은 맥락적으로 관련된 영역들을 하나의 집합으로 그룹화하며, 이 집합 내 영역 임베딩은 문장 내 단어의 임베딩처럼 취급되어 VLM의 텍스트 인코더로 전달된다. 이를 통해 영역 집합의 임베딩을 생성하고, 이는 고정된 VLM이 추출한 해당 특징과 정렬되도록 학습된다. 일반적으로 사용되는 Faster R-CNN에 적용했을 때, 본 방법은 오픈-보라지 COCO 및 LVIS 벤치마크의 새로운 카테고리에서 각각 4.6의 box AP50 및 2.8의 mask AP에서 기존 최고 성능을 초과하였다. 코드와 모델은 https://github.com/wusize/ovdet 에서 제공된다.