
오픈-보디큘러 오브젝트 디텍션(OVD)은 사전 훈련된 카테고리 외의 새로운 오브젝트를 탐지하기 위해 비전-언어 모델(VLM)을 활용해 연구되어 왔다. 기존의 접근 방식은 '양성' 가짜 레이블과 추가적인 '클래스' 이름(예: sock, iPod, alligator)을 사용하여 탐지기의 일반화 능력을 향상시켜 지식 범위를 확장하는 데 초점을 맞추었다. 본 연구에서는 이전 방법을 두 가지 측면에서 확장하기 위해, 검색 기반 손실 및 시각적 특징(Retrieval-Augmented Losses and visual Features, RALF)을 제안한다. 제안한 방법은 관련된 '음성' 클래스를 검색하고 손실 함수를 보강하며, 클래스의 '언어화된 개념'(예: 발에 착용되는 것, 손에 쥐는 음악 플레이어, 날카로운 이빨)을 활용해 시각적 특징을 보강한다. 구체적으로 RALF는 두 가지 모듈로 구성된다: 검색 기반 손실(Retrieval Augmented Losses, RAL)과 검색 기반 시각적 특징(Retrieval-Augmented visual Features, RAF). RAL은 음성 어휘와의 의미적 유사도를 반영하는 두 가지 손실을 구성하며, RAF는 대규모 언어 모델(LLM)로부터 도출된 언어화된 개념을 활용해 시각적 특징을 증강한다. 실험 결과, RALF는 COCO 및 LVIS 벤치마크 데이터셋에서 효과성을 입증하였다. COCO 데이터셋의 새로운 카테고리에서 박스 AP${50}^{\text{N}}$는 최대 3.4점 향상되었으며, LVIS 데이터셋에서는 마스크 AP${\text{r}}$에서 3.6점의 성능 향상을 달성하였다. 코드는 https://github.com/mlvlab/RALF 에 공개되어 있다.