
비전-언어 추론은 시각적 개념, 언어 의미론 이해와 무엇보다도 이 두 모드 간의 정렬과 관계를 이해하는 것이 필요합니다. 따라서 우리는 이러한 비전-언어 연결을 학습하기 위한 LXMERT (Learning Cross-Modality Encoder Representations from Transformers, 트랜스포머를 이용한 교차 모드 인코더 표현 학습) 프레임워크를 제안합니다. LXMERT에서는 객체 관계 인코더, 언어 인코더, 그리고 교차 모드 인코더로 구성된 대규모 트랜스포머 모델을 구축합니다. 다음으로, 우리의 모델이 비전과 언어 의미론을 연결할 수 있는 능력을 부여하기 위해 다섯 가지 다양한 대표적인 사전 학습 작업을 통해 대량의 이미지-문장 쌍으로 모델을 사전 학습시킵니다: 마스크 언어 모델링, 마스크 객체 예측(특성 회귀 및 라벨 분류), 교차 모드 매칭, 그리고 이미지 질문 응답입니다. 이러한 작업들은 각 모드 내부와 교차 모드 간의 관계를 학습하는 데 도움을 줍니다. 사전 학습된 파라미터에서 미세 조정(fine-tuning) 후, 우리의 모델은 두 개의 시각적 질문 응답 데이터셋(VQA 및 GQA)에서 최신 기술 수준의 결과를 달성했습니다. 또한 우리는 사전 학습된 교차 모드 모델의 일반화 가능성을 증명하기 위해 이를 어려운 시각 추론 작업인 NLVR2에 적용하여 이전 최고 결과보다 절대적으로 22% 향상(54%에서 76%)시켰습니다. 마지막으로, 상세한 감소 실험(ablation study)을 통해 우리의 새로운 모델 구성 요소와 사전 학습 전략이 강력한 결과에 크게 기여한다는 것을 입증하였으며, 다양한 인코더에 대한 몇 가지 주목Visualization 시각화도 제시하였습니다. 코드와 사전 학습된 모델은 공개적으로 사용할 수 있으며, 다음 링크에서 확인할 수 있습니다: https://github.com/airsplay/lxmert