17일 전

시각-언어 사전학습의 확장: 이미지 설명 생성을 위한 접근

Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
시각-언어 사전학습의 확장: 이미지 설명 생성을 위한 접근
초록

최근 몇 년 동안 시각-언어 사전학습(Vision-Language Pre-training, VLP) 기반 이미지 캡셔닝(task)에서 성능 향상이 두드러지게 나타났다. 이 발전의 핵심 요인으로 규모(scale)가 중요한 역할을 한다는 것이 널리 인식되고 있다. 그러나 기존 연구 대부분은 약 400만 장의 이미지에서 중간 규모의 트랜스포머 모델(예: 12 또는 24층)만을 사전학습하는 데 집중해왔다. 본 논문에서는 대규모 이미지 캡셔너인 LEMON(LargE-scale iMage captiONer)을 제안하고, 이미지 캡셔닝을 위한 VLP의 스케일링 행동에 대한 최초의 실증적 연구를 수행한다. 우리는 이미지 특징 추출기와 트랜스포머 모델로 구성된 최신 기술인 VinVL 모델을 기준 모델로 삼아, 모델 크기를 13백만에서 6억 7천5백만 파라미터까지 다양하게 확장하며 상하 방향으로 확장 실험을 수행한다. 데이터 측면에서는 웹에서 이미지의 alt 속성 기반으로 자동 수집한 최대 2억 개의 이미지-텍스트 쌍(이를 ALT200M이라 명명)을 활용하여 실험을 진행한다. 광범위한 분석을 통해 모델 크기와 사전학습 데이터 크기가 증가함에 따라 성능 변화의 추세를 체계적으로 규명한다. 또한 대규모 노이즈가 포함된 데이터에서의 학습을 위한 다양한 학습 전략을 비교 분석한다. 그 결과, LEMON은 COCO Caption, nocaps, Conceptual Captions 등 주요 이미지 캡셔닝 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였다. 또한 제로샷(zero-shot) 환경에서도 LEMON이 희귀한 시각적 개념(long-tail visual concepts)을 포함한 캡셔닝을 생성할 수 있음을 보여주었다.