18일 전
ArtQuest: 예술 VQA에서 숨겨진 언어 편향 극복하기
{Gerard de Melo, Sedigheh Eslami, Tibor Bleidt}

초록
시각적 질문 응답(VQA) 작업은 일반 도메인의 실세계 이미지에 대해 광범위하게 연구되어 왔다. 일반 도메인 VQA의 통찰을 예술 도메인(ArtVQA)으로 전이하는 것은 비현실적이며, 이는 시각 데이터 내에서 추상적 개념, 붓질의 세부 사항, 회화 스타일 등을 인식해야 하며, 예술에 대한 배경 지식을 갖추어야 하기 때문이다. 이러한 문제는 고품질 데이터셋의 부족으로 인해 더욱 악화된다. 본 연구에서는 예술 도메인 VQA를 위한 유일한 공개 벤치마크 데이터셋인 AQUA 데이터셋 내에 숨겨진 언어적 편향을 밝히고자 하였다. 그 결과, 대부분의 질문은 시각 정보를 참조하지 않고도 해결될 수 있으며, 이로 인해 ArtVQA의 'V'(시각) 요소가 사실상 무의미해진다. 이러한 문제를 해결하기 위해, SemArt 컬렉션의 구조화된 정보를 활용하여 간단하면서도 실용적인 데이터셋인 ArtQuest를 구축하였다. 본 데이터셋과 결과 재현을 위한 파이프라인은 https://github.com/bletib/artquest에서 공개되어 있다.