11일 전

LaMI-DETR: 언어 모델 지시를 통한 오픈-보라지 탐지

Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu
LaMI-DETR: 언어 모델 지시를 통한 오픈-보라지 탐지
초록

기존의 방법들은 CLIP과 같은 시각-언어 모델(VLM)의 강력한 오픈-보이드(Open-vocabulary) 인식 능력을 활용하여 오픈-보이드 객체 탐지 성능을 향상시켜 왔다. 그러나 두 가지 주요 과제가 존재한다. 첫째, 개념 표현의 부족으로, CLIP의 텍스트 공간 내 카테고리 이름은 텍스트적·시각적 지식을 포함하지 못한다는 점이다. 둘째, 기본 카테고리에 대한 과적합 경향으로, VLM에서 탐지기로의 전이 과정에서 오픈-보이드 지식이 기본 카테고리 쪽으로 편향된다는 문제이다. 이러한 과제를 해결하기 위해 우리는 언어 모델 지시(LaMI, Language Model Instruction) 전략을 제안한다. 이 전략은 시각적 개념 간의 관계를 활용하며, 단순하지만 효과적인 DETR 유사 탐지기인 LaMI-DETR에 적용된다. LaMI는 GPT를 활용하여 시각적 개념을 구성하고, T5를 통해 카테고리 간의 시각적 유사성을 탐색한다. 이러한 카테고리 간 관계는 개념 표현을 정교화하고, 기본 카테고리에 대한 과적합을 방지한다. 철저한 실험을 통해 제안하는 방법이 외부 학습 자원에 의존하지 않고도 동일한 엄격한 설정에서 기존 방법보다 뛰어난 성능을 보임을 입증하였다. LaMI-DETR는 OV-LVIS에서 희귀 박스 AP 43.4를 기록하며, 이전 최고 성능보다 7.8점 높은 성과를 달성하였다.

LaMI-DETR: 언어 모델 지시를 통한 오픈-보라지 탐지 | 최신 연구 논문 | HyperAI초신경