
초록
우리는 실제 세계 시각적 추론 및 구성적 질문 응답을 위한 새로운 데이터셋인 GQA를 소개합니다. 이는 기존의 VQA 데이터셋들의 주요 단점을 해결하기 위해 개발되었습니다. 우리는 장면 그래프 구조를 활용하여 2,200만 개의 다양한 추론 질문을 생성하는 강력하고 견고한 질문 엔진을 개발하였습니다. 모든 질문은 그 의미를 나타내는 함수 프로그램이 함께 제공됩니다. 이러한 프로그램들을 사용하여 답변 분포를 철저히 제어하며, 질문 편향성을 완화하기 위한 새로운 조절 가능한 평활화 기술을 제시합니다. GQA와 함께 제공되는 새로운 메트릭스 세트는 일관성, 근거성, 타당성과 같은 필수적인 품질을 평가합니다. 베이스라인 모델과 최신 모델에 대한 광범위한 분석이 수행되어 다양한 질문 유형과 위상에 대한 세부 결과가 제공됩니다. 맹인 LSTM은 단지 42.1%의 성능을 보이는 반면, 강력한 VQA 모델들은 54.1%의 성능을 달성하였으며, 인간의 성능은 89.3%로 가장 높았습니다. 이는 새로운 연구가 탐구할 수 있는 충분한 여지를 제공합니다. 우리는 GQA가 다음 세대 모델들이 더욱 견고한 성능, 개선된 일관성, 그리고 이미지와 언어에 대한 더 깊은 의미 이해를 갖추도록 하는 자원으로 활용되기를 강력히 바랍니다.