Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone 위에서 아래로 시각-언어 사전 학습: 백본에서 융합을 활용한 방법

비전-언어(VL) 사전 학습이 최근 많은 주목을 받고 있습니다. 그러나 대부분의 기존 엔드투엔드 사전 학습 접근 방식은 이미지-텍스트 검색, 시각적 질문 응답(VQA), 이미지 캡셔닝과 같은 고수준 이미지 이해를 테스트하는 VL 작업에만 초점을 맞추거나, 문구 지정 및 객체 탐지와 같은 지역 수준 이해를 위한 작업에만 집중합니다. 우리는 이러한 두 유형의 작업을 원활하게 처리할 수 있는 새로운 VL 모델 아키텍처인 FIBER(Fusion-In-the-Backbone-based transformER)를 제시합니다. 단일 모달 백본 이후에 융합을 위한 전용 트랜스포머 레이어를 두는 대신, FIBER는 이미지와 텍스트 백본에 크로스 어텐션을 삽입하여 모델 내부에서 다중 모달 융합을 깊게 진행함으로써 메모리와 성능 측면에서 이점을 제공합니다. 또한, 이전 연구가 이미지-텍스트 데이터 또는 상자 수준 주석이 있는 세밀한 데이터 중 하나만으로 사전 학습되는 것과 달리, 우리는 이러한 두 종류의 데이터를 효율적으로 사용하는 두 단계 사전 학습 전략을 제시합니다: (i) 이미지-텍스트 데이터를 기반으로 한 거시적 사전 학습; (ii) 이미지-텍스트-박스 데이터를 기반으로 한 미시적 사전 학습. 우리는 VQA, 이미지 캡셔닝, 검색부터 문구 지정, 참조 표현 이해, 객체 탐지까지 다양한 VL 작업에서 포괄적인 실험을 수행했습니다. 깊은 다중 모달 융합과 두 단계 사전 학습을 결합한 FIBER는 모든 작업에서 강력한 베이스라인보다 일관된 성능 개선을 제공하며, 종종 더 많은 데이터를 사용하는 방법들보다 우수한 결과를 보입니다. 코드는 https://github.com/microsoft/FIBER에서 확인할 수 있습니다.