야외 환경에서 다중 모달 쿼리 기반 객체 검출

우리는 MQ-Det를 소개합니다. 이는 효율적인 아키텍처와 사전 학습 전략 설계로, 오픈셋 일반화(open-set generalization)에 대한 텍스트 설명과 다양한 설명 세분도(rich description granularity)를 가진 시각적 예제(visual exemplars)를 카테고리 쿼리로 활용하는 방법입니다. 이를 다중 모달 쿼리 객체 검출(Multi-modal Queried object Detection)이라고 합니다. MQ-Det는 기존의 언어 쿼리만을 사용하는 검출기(detectors)에 시각적 쿼리를 통합합니다. 동결된 검출기에 적용할 수 있는 플러그 앤 플레이 방식의 게이트드 클래스 확장 가능 인지 모듈(gated class-scalable perceiver module)을 제안하여, 카테고리 텍스트에 클래스별 시각 정보를 추가합니다. 동결된 검출기가 초래하는 학습 관성 문제(learning inertia problem)를 해결하기 위해, 시각 조건부 마스킹 언어 예측 전략(vision conditioned masked language prediction strategy)을 제안하였습니다. MQ-Det의 간단하면서도 효과적인 아키텍처와 학습 전략 설계는 대부분의 언어 쿼리 객체 검출기와 호환되므로, 다양한 응용 분야에서 활용될 수 있습니다. 실험 결과는 다중 모달 쿼리가 오픈 월드 검출(open-world detection)을 크게 향상시킨다는 것을 보여줍니다. 예를 들어, MQ-Det는 다운스트림 미세조정(downstream finetuning) 없이 LVIS 벤치마크에서 +7.8% AP 성능 향상을 통해 기존 최신 오픈셋 검출기(GLIP)의 성능을 크게 개선했습니다. 또한 13개의 소수 샷 다운스트림 작업(few-shot downstream tasks)에서 평균 +6.3% AP 성능 향상을 보였으며, GLIP가 요구하는 추가 조정 시간은 단 3%뿐입니다. 코드는 https://github.com/YifanXu74/MQ-Det에서 확인할 수 있습니다.