11일 전
보이는 것이 읽는 것이 되는가? 텍스트-이미지 정렬 평가 개선
Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor

초록
텍스트와 해당 이미지가 의미적으로 일치하는지를 자동으로 판단하는 것은 비전-언어 모델에 있어 중요한 도전 과제이며, 생성형 텍스트-이미지 및 이미지-텍스트 작업에 응용 가능하다. 본 연구에서는 자동 텍스트-이미지 일치도 평가 방법을 탐구한다. 먼저, 텍스트-이미지 생성 및 이미지-텍스트 생성 작업에서 나온 여러 데이터셋을 아우르는 종합적인 평가 세트인 SeeTRUE를 소개한다. SeeTRUE는 주어진 텍스트-이미지 쌍이 의미적으로 일치하는지를 판단하기 위해 인간 평가를 포함하고 있다. 그 후, 일치도를 판단하기 위한 두 가지 자동화된 방법을 제시한다. 첫 번째 방법은 질문 생성(question generation)과 시각적 질문-응답(visual question answering, VQA) 모델을 기반으로 한 파이프라인을 활용하는 것으로, 두 번째 방법은 다모달 사전 학습 모델을 미세 조정(finetuning)하여 엔드투엔드 분류(end-to-end classification) 접근을 사용하는 것이다. 두 방법 모두 다양한 텍스트-이미지 일치도 작업에서 기존 접근법을 초월하며, 복잡한 구성이나 비자연스러운 이미지를 포함하는 어려운 케이스에서 특히 두드러진 성능 향상을 보였다. 마지막으로, 본 연구에서는 제안한 방법이 이미지와 주어진 텍스트 간 특정한 일치하지 않는 부분을 정확히 위치화할 수 있음을 보이며, 텍스트-이미지 생성 과정에서 후보 이미지를 자동으로 재순위화하는 데 어떻게 활용될 수 있는지도 실험적으로 제시한다.