Grounding DINO 1.5: 오픈 세트 객체 검출의 "경계"를 확장하다

이 논문은 IDEA 연구소에서 개발한 오픈셋 객체 검출 모델의 최신 버전인 Grounding DINO 1.5를 소개합니다. 이 모델 스위트는 오픈셋 객체 검출의 "엣지"를 발전시키는 것을 목표로 합니다. Grounding DINO 1.5는 두 가지 모델을 포함하고 있습니다: 고성능 모델인 Grounding DINO 1.5 Pro와 빠른 속도가 요구되는 엣지 배포 환경에 최적화된 효율적인 모델인 Grounding DINO 1.5 Edge입니다.Grounding DINO 1.5 Pro 모델은 다양한 시나리오에서 더 강력한 일반화 능력을 갖도록 설계되었습니다. 이 모델은 전작을 발전시켜서 모델 아키텍처를 확장하고, 향상된 비전 백본을 통합하며, 그라운딩 주석이 있는 2,000만 장 이상의 이미지를 사용하여 학습 데이터셋을 확대함으로써 더 풍부한 의미론적 이해를 달성하였습니다.반면에 Grounding DINO 1.5 Edge 모델은 특징 스케일을 줄여 효율성을 높였지만, 동일한 포괄적인 데이터셋으로 학습되어 견고한 검출 능력을 유지합니다. 경험적 결과는 Grounding DINO 1.5의 효과성을 입증하며, Grounding DINO 1.5 Pro 모델은 COCO 검출 벤치마크에서 54.3 AP(평균 정밀도)와 LVIS-minival 제로샷 전송 벤치마크에서 55.7 AP를 기록하여 오픈셋 객체 검출 분야에서 새로운 기록을 세웠습니다.또한, TensorRT로 최적화된 Grounding DINO 1.5 Edge 모델은 LVIS-minival 벤치마크에서 제로샷 성능이 36.2 AP를 달성하면서 속도가 초당 75.2 프레임(FPS)에 도달하여 엣지 컴퓨팅 시나리오에 더욱 적합해졌습니다. 이 모델의 예제와 데모, API는 https://github.com/IDEA-Research/Grounding-DINO-1.5-API 에서 제공될 예정입니다.