2달 전

IconQA: 추상 도표 이해 및 시각적 언어 추론을 위한 새로운 벤치마크

Pan Lu; Liang Qiu; Jiaqi Chen; Tony Xia; Yizhou Zhao; Wei Zhang; Zhou Yu; Xiaodan Liang; Song-Chun Zhu
IconQA: 추상 도표 이해 및 시각적 언어 추론을 위한 새로운 벤치마크
초록

현재 시각 질문 응답(VQA) 작업은 주로 자연 이미지에 대한 인간이 주석을 단 질문에 답하는 것을 고려하고 있습니다. 그러나 자연 이미지 외에도, 의미론적 풍부함을 가진 추상 도표는 여전히 시각 이해 및 추론 연구에서 덜 연구되고 있습니다. 본 연구에서는 아이콘 이미지 컨텍스트에서 질문에 답하는 것을 목표로 하는 새로운 과제인 아이콘 질문 응답(IconQA)을 소개합니다. 우리는 107,439개의 질문과 세 가지 하위 작업(다중 이미지 선택, 다중 텍스트 선택, 빈칸 채우기)으로 구성된 대규모 데이터셋 IconQA를 공개합니다. IconQA 데이터셋은 추상 도표 이해와 포괄적인 인식 추론의 중요성을 강조하는 실제 세계의 도표 단어 문제에서 영감을 받았습니다. 따라서 IconQA는 객체 인식과 텍스트 이해 등의 지각 기술뿐만 아니라 기하학적 추론, 상식적 추론, 산술적 추론 등 다양한 인식 추론 기술을 요구합니다. 아이콘 이미지의 의미 표현을 학습할 수 있도록 잠재적인 IconQA 모델들을 지원하기 위해, 377개 클래스에 속하는 645,687개의 색상 아이콘이 포함된 아이콘 데이터셋 Icon645를 추가로 공개합니다. 우리는 광범위한 사용자 연구와 맹검 실험을 수행하고 다양한 최신 VQA 방법들을 재현하여 IconQA 작업의 벤치마크를 설정하였습니다. 또한, 아이콘 데이터셋에서 사전 학습된 입력 도표 임베딩을 적용하는 피라미드 크로스-모달 트랜스포머(Patch-TRM)를 개발하여 강력한 IconQA 베이스라인을 제시하였습니다. IconQA와 Icon645는 https://iconqa.github.io에서 이용 가능합니다.