11일 전

Winoground: 시각-언어 모델의 시각-언어 구성성 탐색

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross
Winoground: 시각-언어 모델의 시각-언어 구성성 탐색
초록

시각 및 언어 모델이 시각-언어적 조합적 추론(compositional reasoning) 능력을 갖추고 있는지를 평가하기 위한 새로운 작업과 데이터셋을 제안한다. 이를 'Winoground'라고 부른다. 두 장의 이미지와 두 개의 문장(캡션)이 주어졌을 때, 각각을 정확히 매칭하는 것이 목표이다. 그러나 중요한 점은 두 캡션에 사용된 단어가 완전히 동일하며, 단지 단어의 순서만 다를 뿐이라는 것이다. 이 데이터셋은 전문 평가자들이 철저하게 수작업으로 수집·정제하였으며, 모델 성능을 분석하는 데 도움을 주기 위해 세밀한 태그들을 풍부하게 라벨링하였다. 최신의 다양한 강력한 시각-언어 모델들을 조사한 결과, 놀랍게도 어느 모델도 우연에 가까운 성능을 넘어서지 못하는 것으로 나타났다. 명백히, 이러한 모델들은 우리가 기대했던 만큼 시각-언어적 조합적 추론 능력을 갖추고 있지 못하다는 것을 알 수 있다. 향후 연구가 이러한 모델의 한계를 어떻게 극복할 수 있을지에 대한 통찰을 얻기 위해 포괄적인 분석을 수행하였다. Winoground가 최신 기술 수준을 진전시키고 분야 내 추가 발전을 이끌어내는 유용한 평가 기준이 되기를 기대한다. 데이터셋은 다음 링크에서 제공된다: https://huggingface.co/datasets/facebook/winoground.

Winoground: 시각-언어 모델의 시각-언어 구성성 탐색 | 최신 연구 논문 | HyperAI초신경