2달 전

Grounding DINO: DINO와 지상 기반 사전 학습을 결합한 오픈 세트 객체 검출

Shilong Liu; Zhaoyang Zeng; Tianhe Ren; Feng Li; Hao Zhang; Jie Yang; Qing Jiang; Chunyuan Li; Jianwei Yang; Hang Su; Jun Zhu; Lei Zhang
Grounding DINO: DINO와 지상 기반 사전 학습을 결합한 오픈 세트 객체 검출
초록

본 논문에서는 트랜스포머 기반 검출기 DINO와 지상화(pre-training)를 결합하여 임의의 객체를 인간 입력(예: 카테고리 이름 또는 참조 표현)으로 검출할 수 있는 오픈셋 객체 검출기인 Grounding DINO를 제시합니다. 오픈셋 객체 검출의 핵심 해결책은 언어를 폐쇄셋 검출기에 도입하여 오픈셋 개념 일반화를 실현하는 것입니다. 언어와 시각 모달을 효과적으로 융합하기 위해, 우리는 개념적으로 폐쇄셋 검출기를 세 단계로 나누고, 이에 대한 밀접한 융합 솔루션을 제안합니다. 이 솔루션은 특징 강화기, 언어 안내된 쿼리 선택, 그리고 크로스 모달 융합을 위한 크로스 모달 디코더를 포함합니다. 과거 연구들은 주로 새로운 카테고리에서 오픈셋 객체 검출을 평가하였지만, 우리는 또한 속성으로 지정된 객체에 대한 참조 표현 이해 평가도 수행하도록 제안합니다. Grounding DINO는 COCO, LVIS, ODinW, 그리고 RefCOCO/+/g 벤치마크에서 모두 뛰어난 성능을 보여주며, COCO 감지 제로샷 전송 벤치마크에서 52.5 AP를 달성하였습니다. 즉, COCO 데이터로부터 어떠한 훈련 데이터도 사용하지 않았음에도 불구하고 이를 달성하였습니다. 또한 ODinW 제로샷 벤치마크에서 평균 26.1 AP라는 새로운 기록을 세웠습니다. 코드는 \url{https://github.com/IDEA-Research/GroundingDINO}에서 제공될 예정입니다.

Grounding DINO: DINO와 지상 기반 사전 학습을 결합한 오픈 세트 객체 검출 | 최신 연구 논문 | HyperAI초신경