2달 전
VL-BERT: 일반적인 시각-언어 표현의 사전 학습
Weijie Su; Xizhou Zhu; Yue Cao; Bin Li; Lewei Lu; Furu Wei; Jifeng Dai

초록
시각-언어 작업을 위한 새로운 사전 학습 가능한 일반 표현인 시각-언어 BERT (VL-BERT, 줄여서 VL-BERT)를 소개합니다. VL-BERT는 간단하면서도 강력한 Transformer 모델을 주요 구조로 채택하고, 이를 입력으로 시각적 및 언어적 임베딩 특성을 모두 처리하도록 확장하였습니다. 이 모델에서 입력의 각 요소는 입력 문장의 단어 또는 입력 이미지의 관심 영역(RoI, Region-of-Interest) 중 하나입니다. VL-BERT는 대부분의 시각-언어 하류 작업에 적합하도록 설계되었습니다. 일반 표현을 더 효과적으로 활용하기 위해, 우리는 대규모 Conceptual Captions 데이터셋과 텍스트만으로 구성된 코퍼스를 사용하여 VL-BERT를 사전 학습하였습니다. 광범위한 실증 분석 결과, 사전 학습 절차가 시각적 및 언어적 단서를 더 잘 일치시키고, 시각 상식 추론, 시각 질문 응답, 참조 표현 이해 등의 하류 작업에 도움이 됨을 입증하였습니다. 특히 VL-BERT는 VCR 벤치마크 리더보드에서 단일 모델로 처음 1위를 차지하였다는 점에 주목할 만합니다. 코드는 \url{https://github.com/jackroos/VL-BERT}에서 제공됩니다.