
이미지 캡셔닝은 시각-언어 이해 분야에서 핵심적인 과제로, 주어진 입력 이미지에 대해 정보를 담은 텍스트 형식의 캡션을 예측하는 작업이다. 본 논문에서는 이 과제를 해결하기 위한 간단한 접근법을 제안한다. 우리는 간단한 매핑 네트워크를 활용하여 CLIP 인코딩을 캡션의 접두사(prefix)로 사용하고, 이를 기반으로 언어 모델을 미세조정(fine-tune)하여 이미지 캡션을 생성한다. 최근에 제안된 CLIP 모델은 텍스트적 맥락과 함께 훈련되어 풍부한 의미적 특징을 포함하고 있어, 시각-언어 인식에 매우 적합하다. 본 연구의 핵심 아이디어는 사전 훈련된 언어 모델(GPT2)과 결합함으로써 시각적 데이터와 텍스트 데이터에 대한 광범위한 이해를 가능하게 한다는 점이다. 따라서 본 방법은 비교적 짧은 훈련 시간만으로도 효과적인 캡셔닝 모델을 생성할 수 있다. 추가적인 레이블링 데이터나 사전 훈련 없이도 대규모이고 다양한 데이터셋에 대해 의미 있는 캡션을 효율적으로 생성할 수 있다. 놀랍게도, 본 방법은 매핑 네트워크만을 훈련시켜도 충분히 우수한 성능을 발휘하며, CLIP 모델과 언어 모델은 동결(frozen) 상태로 유지할 수 있다. 이로 인해 더 가벼운 아키텍처와 적은 학습 가능한 파라미터를 갖는 모델을 구현할 수 있다. 정량적 평가를 통해 본 모델이 도전적인 Conceptual Captions 및 nocaps 데이터셋에서 최첨단 기법들과 비교해 유사한 성능을 달성함을 입증하였으며, 동시에 더 간단하고 빠르며 가볍다는 장점을 지닌다. 본 연구의 코드는 https://github.com/rmokady/CLIP_prefix_caption 에 공개되어 있다.