17일 전
이미지 설명 및 VQA를 위한 통합 시각-언어 사전 학습
Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao

초록
이 논문은 통합형 시각-언어 사전학습(Vision-Language Pre-training, VLP) 모델을 제안한다. 본 모델은 다음과 같은 두 가지 측면에서 '통합적'이다. 첫째, 모델은 시각-언어 생성(예: 이미지 캡셔닝) 또는 이해(예: 시각적 질문 응답) 작업 중 하나로의 미세조정(fine-tuning)이 가능하다. 둘째, 인코딩과 디코딩 모두에 동일한 다층 트랜스포머 네트워크를 공유하여 사용하며, 기존 많은 방법들과 달리 인코더와 디코더를 별도의 모델로 구현하지 않는다. 제안된 통합형 VLP 모델은 대규모 이미지-텍스트 쌍을 기반으로, 양방향(bidirectional)과 시퀀스-투-시퀀스(seq2seq) 마스킹 시각-언어 예측이라는 두 가지 비지도 학습 목표를 활용하여 사전학습된다. 이 두 가지 작업은 예측이 어떤 맥락에 기반하는지 여부에서만 차이를 보이며, 이는 공유된 트랜스포머 네트워크에 특별한 자기주의 주목(self-attention mask)을 활용하여 제어된다. 현재까지의 연구를 고려할 때, VLP는 COCO 캡셔닝, Flickr30k 캡셔닝, VQA 2.0이라는 세 가지 도전적인 벤치마크 데이터셋에서 이미지 캡셔닝과 시각적 질문 응답처럼 매우 다른 두 가지 시각-언어 작업 모두에서 최고 수준의 성능을 달성한 최초의 보고된 모델이다. 코드 및 사전학습된 모델은 https://github.com/LuoweiZhou/VLP에서 제공된다.