MDETR -- End-to-End 다중 모달 이해를 위한 조절된 검출

다중 모드 추론 시스템은 사전 훈련된 객체 검출기를 사용하여 이미지에서 관심 영역을 추출합니다. 그러나 이 중요한 모듈은 일반적으로 후속 작업과 독립적으로, 그리고 고정된 객체와 속성의 어휘집에 대해 훈련됩니다. 이는 자유 형식의 텍스트에서 표현되는 시각적 개념의 긴 꼬리를 포착하는 것이 어렵게 만듭니다. 본 논문에서는 원시 텍스트 쿼리(예: 캡션 또는 질문)를 조건으로 하는 이미지 내 객체 검출을 위한 MDETR이라는 엔드투엔드 변조 검출기를 제안합니다. 우리는 두 모달을 초기 단계에서 융합하여 텍스트와 이미지를 공동으로 추론할 수 있는 트랜스포머 기반 아키텍처를 사용합니다. 130만 개의 텍스트-이미지 쌍으로 사전 훈련하는데, 이 쌍들은 이미지 내 객체와 텍스트 내 문구 간에 명시적인 일치성을 가진 기존 다중 모달 데이터셋에서 추출되었습니다. 그런 다음 구문 지정, 참조 표현 이해 및 분할 등의 여러 하류 작업에 대해 미세 조정(fine-tuning)하여 인기 있는 벤치마크에서 최고 수준의 성능을 달성했습니다. 또한, 소수 샷(few-shot) 설정에서 미세 조정될 때 주어진 라벨 집합에 대한 객체 검출기로서 우리 모델의 활용성을 조사하였습니다. 우리는 사전 훈련 접근법이 매우 적은 라벨링된 인스턴스를 가진 객체 카테고리의 긴 꼬리를 처리하는 방법을 제공함을 보여주었습니다. 우리의 접근 방식은 쉽게 확장되어 GQA 및 CLEVR에서 경쟁력 있는 성능을 보이는 시각적 질문 응답에도 적용할 수 있습니다. 코드와 모델은 https://github.com/ashkamath/mdetr 에서 이용 가능합니다.