2달 전

데이터 시각화에 대한 질문 응답을 위한 효율적인 이모달 융합 방법

Kafle, Kushal ; Shrestha, Robik ; Price, Brian ; Cohen, Scott ; Kanan, Christopher
데이터 시각화에 대한 질문 응답을 위한 효율적인 이모달 융합 방법
초록

차트 질문 응답 (CQA)은 알고리즘이 데이터 시각화에 대한 질문, 예를 들어 막대 그래프, 원형 차트, 선 그래프 등을 답변해야 하는 새로운 시각적 질문 응답 (VQA) 과제입니다. CQA는 자연 이미지 VQA 알고리즘에서 부족한 세 가지 기능을 필요로 합니다: 미세 측정, 광학 문자 인식, 그리고 질문과 답변 모두에서 사전에 포함되지 않은 단어(Out-of-Vocabulary Words) 처리 능력입니다. 수정 없이 최신 VQA 알고리즘은 이 과제에서 성능이 매우 저조합니다. 본 연구에서는 차트와 언어 특성을 병렬적으로 재귀적으로 융합하는 새로운 CQA 알고리즘인 '병렬 재귀적 이미지 및 언어 융합' (Parallel Recurrent Fusion of Image and Language, PReFIL)을 제안합니다. PReFIL은 먼저 질문과 이미지 특성을 융합하여 이모달 임베딩을 학습하고, 그 다음 이러한 학습된 임베딩을 지능적으로 집계하여 주어진 질문에 답합니다. 간단함에도 불구하고, PReFIL은 FigureQA와 DVQA 데이터셋에서 최신 시스템들과 인간의 기준치를 크게 초월합니다. 또한, 우리는 PReFIL이 차트에 대해 일련의 질문을 던져 표를 재구성할 수 있음을 보여줍니다.