2달 전

통합 객체 지정 및 검출을 위한 개방형 종합 파이프라인

Zhao, Xiangyu ; Chen, Yicheng ; Xu, Shilin ; Li, Xiangtai ; Wang, Xinjiang ; Li, Yining ; Huang, Haian
통합 객체 지정 및 검출을 위한 개방형 종합 파이프라인
초록

Grounding-DINO는 오픈 세트 감지(open-set detection) 모델로서 최신 기술을 적용하여 오픈 어휘 감지(Open-Vocabulary Detection, OVD), 문구 지시(Phrase Grounding, PG), 그리고 참조 표현 이해(Referring Expression Comprehension, REC)와 같은 여러 시각적 작업을 해결합니다. 이 모델의 효율성은 다양한 하류 응용 분야에서 주류 아키텍처로 널리 채택되는 데 기여하였습니다. 그러나, 그 중요성에도 불구하고, 원래의 Grounding-DINO 모델은 훈련 코드가 제공되지 않아 공개된 기술 세부 정보가 부족한 상태입니다. 이러한 격차를 메우기 위해, 우리는 MMDetection 도구함을 사용하여 구축된 오픈 소스, 포괄적이고 사용자 친화적인 베이스라인인 MM-Grounding-DINO를 소개합니다. 이 모델은 사전 학습에 다수의 시각 데이터셋을, 미세 조정(fine-tuning)에는 다양한 감지 및 지시 데이터셋을 활용합니다. 우리는 각 보고 결과에 대한 포괄적인 분석과 재현을 위한 상세 설정을 제공합니다. 언급된 벤치마크에서 수행된 광범위한 실험들은 우리의 MM-Grounding-DINO-Tiny가 Grounding-DINO-Tiny 베이스라인을 능가한다는 것을 입증하였습니다. 우리는 모든 모델을 연구 커뮤니티에 공개하며, 코드와 학습된 모델은 다음 링크에서 확인할 수 있습니다: https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.

통합 객체 지정 및 검출을 위한 개방형 종합 파이프라인 | 최신 연구 논문 | HyperAI초신경