2달 전

ImageBERT: 대규모 약지도 이미지-텍스트 데이터를 활용한 크로스모달 사전학습

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti
ImageBERT: 대규모 약지도 이미지-텍스트 데이터를 활용한 크로스모달 사전학습
초록

본 논문에서는 이미지-텍스트 공동 임베딩을 위한 새로운 시각-언어 사전 학습 모델인 ImageBERT를 소개합니다. 본 모델은 다양한 모달성을 입력으로 받아 그들 간의 관계를 모델링하는 Transformer 기반 모델입니다. 모델은 마스킹 언어 모델링(MLM), 마스킹 객체 분류(MOC), 마스킹 영역 특성 회귀(MRFR), 이미지 텍스트 매칭(ITM)이라는 네 가지 작업을 동시에 사전 학습합니다. 사전 학습의 품질을 더욱 높이기 위해, 우리는 웹에서 대규모 약간 지도된 이미지-텍스트(LAIT) 데이터셋을 수집했습니다. 먼저 이 데이터셋에서 모델을 사전 학습한 후, Conceptual Captions과 SBU Captions에서 두 번째 단계의 사전 학습을 수행했습니다. 실험 결과, 다단계 사전 학습 전략이 단일 단계 사전 학습보다 우수함을 보였습니다. 또한, 이미지 검색 및 텍스트 검색 작업에서 우리의 사전 학습된 ImageBERT 모델을 fine-tuning하고 평가한 결과, MSCOCO와 Flickr30k 데이터셋 모두에서 새로운 최고 수준의 성능을 달성했습니다.