텍스트-이미지 검색 모델의 성능은 캡션을 쿼리로 사용하는 것 외에도 일반화되는가?
텍스트-이미지 검색(Text-Image Retrieval, T2I)은 키워드 쿼리에 해당하는 모든 이미지를 복원하는 작업을 의미한다. 텍스트-이미지 검색을 위한 대표적인 데이터셋인 Flickr30k, VG, MS-COCO 등은 이미지에 대한 설명성 캡션(예: “어린이와 놀고 있는 남자”)을 쿼리의 대체 자료로 활용한다. 이러한 대체 쿼리를 사용함으로써, 현재의 다중모달 기계학습 모델(예: CLIP, BLIP)은 뛰어난 성능을 보이고 있다. 그 주된 이유는 캡션이 이미지의 내용을 구체적으로 묘사하기 때문이며, 이는 이미지의 콘텐츠를 정확히 반영한다. 그러나 T2I 쿼리는 이미지-캡션 쌍에 담긴 단순한 묘사 이상의 의미를 포함한다. 따라서 이러한 데이터셋은 보다 추상적이거나 개념적인 쿼리, 예를 들어 “가족 여행”과 같은 쿼리에 대해 모델의 성능을 평가하기에 부적합하다. 이러한 쿼리에서는 이미지의 내용이 명시적으로 기술되기보다는 암시적으로 드러난다. 본 논문에서는 기존의 설명성 쿼리에 대한 T2I 성과를 재현하고, 이를 개념적 쿼리로 일반화한다. 이를 위해 개념적 쿼리 답변을 위한 새로운 T2I 벤치마크인 ConQA에서 새로운 실험을 수행하였다. ConQA는 43,000개의 이미지에 대해 30개의 설명성 쿼리와 50개의 개념적 쿼리를 포함하며, 각 쿼리당 100개 이상의 수작업으로 주석화된 이미지가 포함되어 있다. 기존의 평가 지표를 기반으로 한 실험 결과, 대규모 사전 훈련 모델(예: CLIP, BLIP, BLIP2)과 소규모 모델(예: SGRAF, NAAF) 모두 설명성 쿼리에 비해 개념적 쿼리에서 최대 4배까지 성능이 낮은 것으로 나타났다. 또한, MS-COCO 캡션과 마찬가지로 6개 이상의 키워드를 포함한 쿼리에 대해 모델이 더 뛰어난 성능을 보이는 경향을 확인하였다.