
초록
본 논문에서는 최신 시각-언어(Vision and Language, VL) 기법인 VinVL의 시각적 표현(즉, 객체 태그 및 영역 특징)에 위치 정보를 보강하는 새로운 방법인 VinVL+L을 제안한다. 이러한 메타데이터가 VL 모델에 미치는 중요성을 검증하기 위해, (i) Places365 데이터셋에서 Swin-B 모델을 훈련하여 추가적인 시각적 특징과 태그 특징 세트를 생성하였으며, 이는 재현성과 추가 실험을 위해 공개하였다. (ii) 기존 VinVL 방법에 새로운 특징 세트를 포함하도록 아키텍처를 업데이트하였고, (iii) 정성적 및 정량적 평가를 수행하였다. 단순한 이진 위치 메타데이터만을 포함함으로써 VinVL+L는 최신 기술 수준의 VinVL 모델에 시각 질문 응답(Visual Question Answering, VQA) 성능에서 점진적인 개선을 제공한다. VinVL+L는 GQA 데이터셋에서 정확도 64.85%를 달성하며, 정확도 기준으로 +0.32%의 성능 향상을 기록하였다. 새로운 특징 표현의 통계적 유의성은 Approximate Randomization 기법을 통해 검증되었다. 코드 및 새로 생성된 특징 세트는 https://github.com/vyskocj/VinVL-L에서 공개되어 있다.