VIVO: 새로운 객체 캡션을 위한 시각어휘 사전학습

새로운 객체를 설명할 수 있는 이미지 캡션을 생성하는 것은 매우 바람직하지만, 동시에 도전적인 과제이며, 이 능력은 '새로운 객체 캡션화 도전 과제(Novel Object Captioning Challenge, nocaps)'에서 평가된다. 이 도전 과제에서는 COCO Captions 외에 추가적인 이미지-캡션 훈련 데이터를 사용하는 것을 금지하고 있다. 따라서 기존의 시각-언어 사전 훈련(Vision-Language Pre-training, VLP) 방법을 적용할 수 없다. 본 논문은 캡션 레이블이 없는 환경에서도 사전 훈련이 가능한 VIsual VOcabulary pretraining(VIVO)를 제안한다. VLP에서 이미지-캡션 쌍 데이터에 대한 의존성을 제거함으로써, VIVO는 대량의 이미지-태그 쌍 데이터를 활용하여 시각적 어휘를 학습할 수 있다. 이를 위해 이미지 레벨의 태그를 해당 이미지 영역 특징과 정렬하도록 학습하는 다층 Transformer 모델을 사전 훈련한다. 이미지 태그의 순서 없는 특성을 고려하여, VIVO는 마스크된 태그 예측과 함께 헝가리안 매칭 손실(Hungarian matching loss)을 사용하여 사전 훈련을 수행한다. 사전 훈련된 모델을 이미지 캡션화 작업에 미세 조정함으로써 VIVO의 효과성을 검증하였으며, 또한 모델이 추론한 시각-텍스트 정렬 특성에 대한 분석도 수행하였다. 결과적으로 제안하는 모델은 새로운 객체를 설명하는 자연스럽고 유창한 이미지 캡션을 생성할 뿐만 아니라, 해당 객체의 위치도 정확히 식별할 수 있음을 확인하였다. 단일 모델로서 nocaps 벤치마크에서 새로운 최고 성능을 기록하였으며, 인간의 CIDEr 점수를 초월하는 성과를 달성하였다.