2달 전
ViLBERT: 시각-언어 작업을 위한 태스크 독립적 시각언어 표현 사전학습
Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

초록
우리는 이미지 내용과 자연어의 작업 독립적인 공동 표현을 학습하기 위한 모델인 ViLBERT (Vision-and-Language BERT의 약자)를 제시합니다. 인기 있는 BERT 아키텍처를 확장하여 시각적 및 텍스트 입력을 별도의 스트림에서 처리하고, 공통 주의 변환기 층을 통해 상호 작용하는 다중 모달 두 스트림 모델로 만들었습니다. 우리는 큰 규모의 자동으로 수집된 Conceptual Captions 데이터셋에서 두 가지 프록시 작업을 통해 모델을 사전 학습한 후, 기본 아키텍처에 미세한 추가만으로 여러 기존 시각-언어 작업 — 시각 질문 응답, 시각 상식 추론, 참조 표현, 그리고 캡션 기반 이미지 검색 — 에 적용하였습니다. 우리는 기존 작업 특화 모델과 비교하여 모든 작업에서 유의미한 개선을 관찰하였으며, 이는 모든 네 가지 작업에서 최신 수준의 성능을 달성하였습니다. 우리의 연구는 시각과 언어 간의 지지를 학습하는 것이 단순히 작업 학습의 일부가 아닌 사전 학습되고 전이 가능한 능력으로 취급되는 방향으로 변화를 나타냅니다.