2달 전

차트 이해를 위한 분류-회귀

Levy, Matan ; Ben-Ari, Rami ; Lischinski, Dani
차트 이해를 위한 분류-회귀
초록

차트 질문 응답 (CQA)는 차트 이해를 평가하기 위한 작업으로, 자연 이미지 이해와 근본적으로 다르다. CQA는 일반적인 질문에 답하거나 수치 값을 추론하기 위해 차트의 텍스트 구성 요소와 시각적 구성 요소 간의 관계를 분석해야 한다. 기존의 대부분 CQA 데이터셋과 모델은 종종 인간의 성능을 초월할 수 있는 단순화된 가정에 기반하고 있다. 본 연구에서는 이러한 결과를 다루고, 분류와 회귀를 공동으로 학습하는 새로운 모델을 제안한다. 우리의 언어-시각 구조는 공통 주의 메커니즘(co-attention) 변환기(transformers)를 사용하여 질문과 텍스트 요소 간의 복잡한 실제 상호작용을 포착한다. 우리는 현실적인 PlotQA 데이터셋에서 광범위한 실험을 통해 설계를 검증하였으며, 이전 접근 방식보다 크게 우수한 성능을 보였으며, FigureQA에서도 경쟁력 있는 성능을 나타냈다. 우리의 모델은 특히 회귀가 필요한 사전 미등록(out-of-vocabulary) 답변이 포함된 현실적인 질문에 매우 적합하다.