Align before Fuse: 모멘텀 디스틸레이션을 활용한 시각 및 언어 표현 학습

대규모 시각 및 언어 표현 학습은 다양한 시각-언어 작업에서 유망한 개선을 보여주었습니다. 기존의 대부분 방법은 지역 기반 이미지 특성과 단어 토큰을 공동으로 모델링하기 위해 트랜스포머 기반의 다중 모달 인코더를 사용합니다. 그러나 시각 토큰과 단어 토큰이 일치하지 않기 때문에, 다중 모달 인코더가 이미지-텍스트 상호작용을 학습하는 것이 어려워집니다. 본 논문에서는 교차 모달 주의 메커니즘을 통해 이미지와 텍스트 표현을 결합(Fuse)하기 전에 이들을 일치(Align)시키는 대조 손실(contrastive loss)을 제안합니다. 이를 통해 더 탄탄한 시각 및 언어 표현 학습이 가능해집니다. 대부분의 기존 방법과 달리, 우리의 방법은 바운딩 박스 주석이나 고해상도 이미지를 요구하지 않습니다. 노이즈가 많은 웹 데이터로부터 학습을 개선하기 위해, 우리는 모멘텀 모델에 의해 생성된 의사 목표(pseudo-targets)로부터 학습하는 자기훈련(self-training) 방법인 모멘텀 증류(momentum distillation)를 제안합니다. 우리는 상호 정보 최대화 관점에서 ALBEF의 이론적 분석을 제공하며, 서로 다른 학습 작업들이 이미지-텍스트 쌍에 대한 서로 다른 뷰(view) 생성 방식으로 해석될 수 있음을 보여줍니다. ALBEF는 여러 하위 시각-언어 작업에서 최고 수준의 성능을 달성하였습니다. 이미지-텍스트 검색 작업에서 ALBEF는 몇 배 더 큰 데이터셋으로 사전 학습된 방법들보다 우수한 성능을 보입니다. VQA(Vision Question Answering)와 NLVR$^2$(Natural Language Visual Reasoning$^2$) 작업에서는 ALBEF가 최신 연구 결과보다 각각 2.37%와 3.84% 절대적인 개선을 이루어냈습니다. 또한, 추론 속도가 더 빠릅니다. 코드와 사전 학습된 모델은 https://github.com/salesforce/ALBEF/ 에서 확인할 수 있습니다.