다국어 및 다문화에 걸친 시각적 기반 추론

광범위한 시각-언어 데이터셋과 사전 훈련된 인코더의 설계는 대부분 ImageNet의 개념과 이미지에서 직접적으로 또는 영감을 받아 왔다. 이 벤치마크가 컴퓨터 비전 분야의 발전에 기여한 바가 얼마나 큰지 과대평가할 수는 없지만, 그 원천 자료는 주로 영어의 어휘 데이터베이스와 이미지 쿼리에서 유래하여 북미 또는 서유럽 중심의 편향을 지니고 있다. 따라서 우리는 더 많은 언어와 문화를 대표할 수 있는 ImageNet 유사 계층 구조를 구성하기 위한 새로운 프로토콜을 제안한다. 특히, 개념과 이미지의 선정을 자동 크롤링이 아닌 원어민 사용자들에 의해 완전히 주도하도록 한다. 구체적으로, 언어 유형이 다양하도록 인도네시아어, 중국어(망간어), 스와힐리어, 타밀어, 터키어를 대상으로 한다. 이러한 새로운 프로토콜을 통해 확보한 개념과 이미지 기반으로, 원어민 평가자들에게 이미지 쌍에 대해 진술을 유도함으로써 다국어·다문화 시각-언어 추론(Multicultural Reasoning over Vision and Language, MaRVL)을 위한 다국어 데이터셋을 구축한다. 이 작업은 각각의 지칭적 진술이 참인지 거짓인지 구분하는 것으로 구성된다. 최첨단 모델들을 활용해 일련의 벤치마크를 설정한 결과, 영어에서의 지도 학습 성능에 비해 다국어 간 전이 성능이 크게 떨어지는 것으로 나타났다. 이러한 결과는 현재 최첨단 모델의 정확성과 견고성이 좁은 영역을 넘어서 평가되어야 함을 시사하며, 진정한 다국어·다문화 시스템 개발을 위한 새로운 흥미로운 도전 과제를 제시한다.