PlotQA: 과학 그래프에 대한 추론

기존 플롯에 대한 추론을 위한 합성 데이터셋(FigureQA, DVQA)은 데이터 라벨의 다양성, 실수형 데이터 또는 복잡한 추론 질문을 포함하지 않습니다. 따라서 이러한 데이터셋을 위한 제안된 모델들은 플롯에 대한 추론의 도전 과제를 완전히 해결하지 못합니다. 특히, 이들 모델은 답변이 작은 고정 크기의 어휘나 이미지 내의 경계 상자에서 나온다고 가정합니다. 그러나 실제로는 이러한 가정이 비현실적이며, 많은 질문들이 추론을 필요로 하므로 실수형 답변이 작은 고정 크기의 어휘나 이미지에 나타나지 않는 경우가 많습니다. 본 연구에서는 기존 데이터셋과 실제 세계의 플롯 사이의 간극을 메우는 것을 목표로 합니다. 구체적으로, 실제 세계 출처의 데이터와 군중 소싱(crowd-sourced) 질문 템플릿을 기반으로 224,377개의 플롯에 대해 2890만 개의 질문-답변 쌍을 포함하는 PlotQA를 제안합니다. 또한, PlotQA에서 어휘 외(out-of-vocabulary, OOV) 질문의 80.76%는 고정 어휘에 없는 답변을 가지고 있습니다.기존 모델들의 PlotQA 분석 결과, 이들 모델은 OOV 질문을 처리할 수 없으며, 전체 정확도가 한 자리 수에 불과하다는 것이 드러났습니다. 이는 이러한 모델들이 OOV 질문을 위해 설계되지 않았기 때문에 놀라운 일이 아닙니다. 고정 어휘와 OOV 질문 모두를 처리할 수 있는 보다 종합적인 모델로 나아가는 단계로서, 우리는 하이브리드 접근 방식을 제안합니다: 특정 질문들은 고정 어휘에서 답변을 선택하거나 플롯 내 예측된 경계 상자에서 추출하여 답변하며, 다른 질문들은 이미지에서 시각적 요소를 감지하여 생성된 구조화된 표를 입력으로 사용하는 표 질문-답변 엔진으로 답변합니다.기존 DVQA 데이터셋에서 우리의 모델은 58%의 정확도를 보여주며, 최고 보고된 정확도인 46%보다 크게 향상되었습니다. PlotQA에서는 우리의 모델이 22.52%의 정확도를 보여주는데, 이는 최신 기술(state of the art) 모델들보다 크게 우수한 성능입니다.