
초록
시각적 질문 응답(VQA) 딥러닝 시스템은 강력한 언어 사전 정보의 영향으로 훈련 데이터에서 표면적인 통계적 상관관계를 포착하는 경향이 있으며, 질문-응답(QA) 분포가 크게 다른 테스트 데이터에 일반화하지 못합니다. 이 문제를 해결하기 위해, 정확한 답변의 시각적 설명이 다른 경쟁 답변 후보보다 가장 영향력 있는 이미지 영역과 더 잘 일치하도록 하는 자기 비판적 학습 목표를 제안합니다. 영향력 있는 영역은 인간의 시각적/문자 설명을 통해 결정되거나, 질문과 답변에서 중요한 단어만을 사용하여 자동으로 결정됩니다. 우리는 VQA-CP 데이터셋을 사용하여 VQA 일반화 작업에서 우리의 접근 방식을 평가하였으며, 문자 설명을 사용할 때 49.5%, 자동으로 주석된 영역을 사용할 때 48.5%의 새로운 최고 성능(SOTA)을 달성하였습니다.