위치 안내 텍스트 프롬프트를 이용한 시각-언어 사전 학습

비전-언어 사전학습(Vision-Language Pre-Training, VLP)은 이미지와 텍스트 쌍을 일치시키는 데 유망한 능력을 보여주어 다양한 모달 간 학습 작업을 용이하게 합니다. 그러나 VLP 모델이 많은 하류 작업에서 중요한 시각적 정착/위치 지정(visual grounding/localization) 능력이 부족하다는 것을 관찰하였습니다. 이 연구에서는 VLP로 훈련된 크로스모달 모델의 시각적 정착 능력을 강화하기 위해 새로운 위치 안내 텍스트 프롬프트(Position-guided Text Prompt, PTP) 패러다임을 제안합니다. 구체적으로, VLP 단계에서 PTP는 이미지를 $N\times N$ 블록으로 나누고, VLP에서 널리 사용되는 객체 검출기를 통해 각 블록 내의 객체를 식별합니다. 그런 다음 PTP를 통해 주어진 블록 내의 객체를 예측하거나 주어진 객체의 블록을 회귀하는 문제로 시각적 정착 작업을 재구성하여, 예를 들어 "블록 P에는 O가 있습니다"라는 aPTP에서 "P" 또는 "O"를 채우도록 모델을 유도합니다. 이러한 메커니즘은 VLP 모델의 시각적 정착 능력을 개선하여 다양한 하류 작업을 더 잘 처리할 수 있도록 도와줍니다. 여러 최신 VLP 프레임워크에 PTP를 도입함으로써, 대표적인 크로스모달 학습 모델 아키텍처와 몇 가지 벤치마크에서 일관되고 상당한 개선이 이루어짐을 확인할 수 있었습니다. 예를 들어, ViLT \cite{vilt} 기준에서 zero-shot Flickr30K 검색(+4.8 평균 recall@1), SOTA BLIP \cite{blip} 기준에서 COCO 캡셔닝(+5.3 CIDEr) 등입니다. 또한, PTP는 객체 검출기 기반 방법과 비슷한 결과를 달성하면서도 추론 속도가 훨씬 빠르다는 장점이 있습니다. 이는 PTP가 추론 시 객체 검출기를 버리기 때문이며, 후자는 그렇지 못하기 때문입니다. 우리의 코드와 사전 학습된 가중치는 \url{https://github.com/sail-sg/ptp}에서 공개될 예정입니다.