3달 전

MI-DETR: 다중 시간 문의 메커니즘을 갖춘 객체 탐지 모델

Nan, Zhixiong, Li, Xianghong, Dai, Jifeng, Xiang, Tao
MI-DETR: 다중 시간 문의 메커니즘을 갖춘 객체 탐지 모델
초록

기존 DETR 유사 모델에서 널리 채택되고 있는 캐스케이드 디코더 아키텍처의 특성을 분석한 바, 본 논문은 새로운 디코더 아키텍처를 제안한다. 캐스케이드 디코더 아키텍처는 객체 쿼리가 캐스케이드 방향으로만 업데이트되도록 제약하며, 이로 인해 객체 쿼리는 이미지 특징으로부터 상대적으로 제한된 정보만 학습할 수 있다. 그러나 자연 장면에서의 객체 탐지 과제(예: 극도로 작은 객체, 심한 가림, 배경과 혼동되는 경우 등)는 객체 탐지 모델이 이미지 특징을 보다 포괄적으로 활용할 수 있어야 함을 요구한다. 이러한 요구에 부응하기 위해, 병렬적인 다중 시도(Multi-time Inquiries, MI) 메커니즘을 갖춘 새로운 디코더 아키텍처를 제안하였다. MI 메커니즘은 객체 쿼리가 보다 포괄적인 정보를 학습할 수 있도록 지원하며, 본 연구에서 제안한 MI 기반 모델인 MI-DETR는 다양한 백본과 학습 에포크 조건에서 COCO 벤치마크에서 기존 모든 DETR 유사 모델보다 뛰어난 성능을 보였다. 특히 ResNet-50 백본 기준으로, 가장 대표적인 모델인 DINO 및 최신 기준(SOTA) 모델인 Relation-DETR 대비 각각 +2.3 AP 및 +0.6 AP의 성능 향상을 달성하였다. 또한, 일련의 진단 및 시각화 실험을 통해 MI 메커니즘이 효과적이고 합리적이며 해석 가능한 성질을 갖는다는 점이 입증되었다.