컨텍스트 기반 설명에서의 이미지 검색

언어적 발화의 의미를 구체화하는 데 있어 맥락, 특히 인지적 및 시간적 단서를 통합할 수 있는 능력은 핵심적인 역할을 한다. 현재의 시각-언어 모델이 이 능력을 어느 정도 습득하고 있는지를 측정하기 위해, 우리는 새로운 다중모달 도전 과제인 '맥락적 설명에서 이미지 검색(Image Retrieval from Contextual Descriptions, ImageCoDe)'을 제안한다. 구체적으로, 주어진 맥락적 설명을 바탕으로 10개의 최소한으로 대조되는 후보 이미지 중에서 정확한 이미지를 검색하는 것을 모델에게 과제로 부여한다. 이로 인해 각 설명은 이미지 간의 구분에 도움이 되는 정보만 포함되며, 결과적으로 문법적 구조와 토론적 구성 측면에서 복잡해지며 실제 맥락에서의 의미 추론(pragmatic inference)을 요구하게 된다. 이미지는 정적인 사진과 동영상 프레임 모두에서 가져온다. 우리는 ViLBERT와 같은 크로스-엔코더와 CLIP과 같은 바이-엔코더를 포함한 여러 최첨단 모델들을 ImageCoDe에서 평가하였다. 실험 결과, 이러한 모델들은 인간 성능에 크게 뒤처지는 것으로 나타났다: 동영상 프레임에서는 최고 성능 모델이 20.9의 정확도를 기록했고, 정적인 사진에서는 59.4의 정확도를 기록한 반면, 인간의 성능은 90.8에 달했다. 또한, 시각적 및 시간적 맥락을 표현에 더 잘 통합할 수 있도록 개선된 새로운 모델 변형을 실험하였으며, 이는 소폭의 성능 향상을 보였다. 우리는 ImageCoDe가 세밀한 시각적 차이에 주목하도록 모델을 유도함으로써, 구체화된 언어 이해 분야에서의 발전을 촉진하기를 기대한다.