VQA에서 V의 중요성 강화: 이미지 이해의 역할을 높이는 방법

시각과 언어의 교차점에서 발생하는 문제들은 도전적인 연구 질문으로서뿐만 아니라 다양한 응용 프로그램을 가능하게 함으로써 중요한 의미를 지닙니다. 그러나 우리의 세계에 내재된 구조와 언어에 편향성이 시각적 모드보다 더 단순한 학습 신호가 되는 경향이 있어, 이로 인해 시각 정보를 무시하는 모델들이 생겨나며, 그 결과로 모델들의 능력이 과대평가되는 현상이 발생합니다.우리는 이러한 언어 사전 정보를 Visual Question Answering (VQA) 작업에서 상쇄하고, 시각 정보(즉, VQA의 V)가 중요하게 작용하도록 제안합니다. 구체적으로, 유사한 이미지 쌍으로 구성된 보완 이미지를 수집하여 인기 있는 VQA 데이터셋을 균형 있게 조정하였습니다. 이렇게 균형을 맞춘 데이터셋에서는 각 질문이 단일 이미지와 연결되어 있지 않고, 해당 질문에 대해 두 가지 다른 답변을 생성하는 비슷한 이미지 쌍과 연결됩니다. 우리의 균형 잡힌 데이터셋은 원래 VQA 데이터셋보다 더 균형적이며, 약 두 배 많은 이미지-질문 쌍을 포함하고 있습니다. 완성된 균형 잡힌 데이터셋은 www.visualqa.org에서 공개되며, Visual Question Answering Dataset and Challenge (VQA v2.0)의 2번째 버전의 일부입니다.또한, 우리는 최신 VQA 모델들을 우리의 균형 잡힌 데이터셋에서 벤치마킹하였습니다. 모든 모델들은 우리의 균형 잡힌 데이터셋에서 크게 성능이 떨어졌으며, 이는 이러한 모델들이 실제로 언어 사전 정보를 활용하도록 학습되었다는 것을 시사합니다. 이 발견은 실무자들 사이에서 직관적으로 느껴졌던 사실에 대한 첫 번째 구체적인 경험적 증거를 제공합니다.마지막으로, 보완 이미지를 식별하기 위한 우리의 데이터 수집 프로토콜은 새로운 해석 가능한 모델 개발을 가능하게 하였습니다. 이 모델은 주어진 (이미지, 질문) 쌍에 대한 답변뿐만 아니라 같은 질문에 대해 다른 답변을 예상하는 원본 이미지와 유사한 반례 기반 설명도 제공합니다. 이를 통해 사용자들이 기계에게 더 큰 신뢰를 가질 수 있도록 돕습니다.