
초록
시각 언어 사전 학습의 대부분 기존 방법은 객체 검출을 통해 추출된 객체 중심 특성을 활용하여 이러한 특성과 텍스트 간에 세부적인 정렬(fine-grained alignment)을 수행합니다. 그러나 이러한 방법들은 여러 객체 간의 관계를 학습하는 데 어려움이 있습니다. 이를 해결하기 위해, 우리는 '다중 세분화 시각 언어 사전 학습(multi-grained vision language pre-training)'을 수행하는 새로운 방법인 X-VLM을 제안합니다. 다중 세분화 정렬을 학습하는 핵심은 관련 텍스트가 주어진 이미지에서 시각적 개념을 위치시키는 것이며, 동시에 이러한 시각적 개념과 텍스트를 다중 세분화로 정렬하는 것입니다. 실험 결과, X-VLM은 학습된 다중 세분화 정렬을 다양한 하류 시각 언어 작업(downstream vision language tasks)에 효과적으로 활용하며, 일관되게 최신 방법(state-of-the-art methods)보다 우수한 성능을 보였습니다.