2달 전
VALSE: 언어 현상에 중점을 둔 시각 및 언어 모델의 작업 독립적 벤치마크
Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

초록
우리는 VALSE (Vision And Language Structured Evaluation, 시각 및 언어 구조화 평가)라는 새로운 벤치마크를 제안합니다. 이 벤치마크는 일반적인 사전 학습 시각 및 언어(V&L) 모델들의 특정 언어 현상에 대한 시각-언어 근거 능력을 테스트하기 위해 설계되었습니다. VALSE는 다양한 언어 구조를 다루는 6개의 테스트로 구성되어 있으며, 이들 테스트를 해결하기 위해서는 모델이 시각적 모드에서 언어 현상을 근거화해야 합니다. 이를 통해 지금까지 가능했던 것보다 더 세밀한 평가를 제공할 수 있습니다. 우리는 유효한 대조군을 구성하는 방법을 지원하는 기법을 사용하여 VALSE를 구축하였으며, 널리 사용되는 5개의 V&L 모델에 대한 평가 결과를 보고합니다. 실험 결과, 현재의 모델들은 대부분의 현상을 처리하는 데 상당한 어려움을 겪고 있음을 나타내었습니다. 따라서 우리는 VALSE가 언어 관점에서 사전 학습된 V&L 모델의 미래 발전을 측정하는 중요한 벤치마크 역할을 할 것으로 기대하며, 기존의 과제 중심적인 V&L 평가들을 보완할 것으로 생각됩니다.