2달 전

UNITER: UNiversal Image-TExt Representation Learning UNIVER: 보편적인 이미지-텍스트 표현 학습

Yen-Chun Chen; Linjie Li; Licheng Yu; Ahmed El Kholy; Faisal Ahmed; Zhe Gan; Yu Cheng; Jingjing Liu
UNITER: UNiversal Image-TExt Representation Learning
UNIVER: 보편적인 이미지-텍스트 표현 학습
초록

공동 이미지-텍스트 임베딩은 대부분의 비전-언어(V+L) 작업의 기반이 되며, 이는 시각적 및 텍스트 이해를 위한 다중 모달 입력을 동시에 처리합니다. 본 논문에서는 대규모 사전 학습을 통해 COCO, Visual Genome, Conceptual Captions, SBU Captions 네 가지 이미지-텍스트 데이터셋에서 학습된 UNITER(UNiversal Image-TExt Representation)를 소개합니다. 이 모델은 공동 다중 모달 임베딩을 통해 다양한 하류 V+L 작업을 지원할 수 있습니다. 우리는 네 가지 사전 학습 작업을 설계하였습니다: 마스킹 언어 모델링(MLM), 마스킹 영역 모델링(MRM, 세 가지 변형 포함), 이미지-텍스트 매칭(ITM), 단어-영역 정렬(WRA).이전 연구와 달리 양쪽 모달에 대해 공동 랜덤 마스킹을 적용하는 것이 아니라, 사전 학습 작업에서 조건부 마스킹을 사용하였습니다(즉, 마스킹된 언어/영역 모델링은 전체 이미지/텍스트 관찰에 기반하여 조건부로 수행됩니다). 전역적인 이미지-텍스트 정렬을 위한 ITM 외에도, 최적 운송(Optimal Transport, OT) 방법을 사용하여 사전 학습 중 단어와 이미지 영역 간의 미세한 정렬을 명시적으로 유도하는 WRA를 제안하였습니다. 포괄적인 분석 결과, 조건부 마스킹과 OT 기반 WRA가 더 나은 사전 학습에 기여함이 확인되었습니다. 또한, 최적의 사전 학습 작업 조합을 찾기 위해 철저한 아블레이션 연구를 수행하였습니다.다양한 실험 결과는 UNITER가 Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, NLVR$^2$ 등 여섯 개의 V+L 작업(아홉 개 이상의 데이터셋)에서 새로운 최고 성능을 달성함을 보여줍니다. 코드는 https://github.com/ChenRocks/UNITER에서 제공됩니다.

UNITER: UNiversal Image-TExt Representation Learning UNIVER: 보편적인 이미지-텍스트 표현 학습 | 최신 연구 논문 | HyperAI초신경