2달 전

FigureQA: 시각적 추론을 위한 주석이 달린 도형 데이터셋

Kahou, Samira Ebrahimi ; Michalski, Vincent ; Atkinson, Adam ; Kadar, Akos ; Trischler, Adam ; Bengio, Yoshua
FigureQA: 시각적 추론을 위한 주석이 달린 도형 데이터셋
초록

우리는 FigureQA를 소개합니다. 이는 100,000개 이상의 이미지를 기반으로 하는 100만 개 이상의 질문-답변 쌍을 포함하는 시각적 추론 데이터셋입니다. 이미지는 합성된 과학적인 스타일의 그래프로, 5가지 클래스인 선형 그래프(line plots), 점선 그래프(dot-line plots), 수직 및 수평 막대그래프(vertical and horizontal bar graphs), 그리고 원형 차트(pie charts)로 구성됩니다. 우리는 15개의 템플릿에서 생성된 질문들을 통해 추론 작업을 정식화하였습니다. 이 질문들은 플롯 요소들 사이의 다양한 관계에 대해 다루며, 최대값, 최소값, 곡선 아래 면적(area-under-the-curve), 부드러움(smoothness), 교차점(intersection) 등의 특성을 검사합니다. 이러한 질문들을 해결하기 위해서는 종종 여러 플롯 요소들에 대한 참조와 그림 전체에 분산된 정보의 통합이 필요합니다.시각적 추론 작업을 위한 머신 러닝 시스템의 훈련을 용이하게 하기 위해, 데이터셋은 보조 목표를 설정할 수 있는 부가 데이터(side data)도 포함하고 있습니다. 특히, 각 그림을 생성하는데 사용된 숫자 데이터와 모든 플롯 요소들의 바운딩 박스(bounding-box) 주석을 제공합니다. 우리는 여러 모델들을 훈련시키면서 제안된 시각적 추론 작업을 연구하였으며, 강력한 베이스라인으로 최근 제안된 관계 네트워크(Relation Network)를 포함하였습니다. 초기 결과는 이 작업이 상당한 머신 러닝 도전임을 나타내고 있습니다. 우리는 FigureQA를 데이터의 시각적 표현에서 직관적으로 패턴을 인식할 수 있는 모델 개발의 첫 걸음으로 기대하고 있습니다.

FigureQA: 시각적 추론을 위한 주석이 달린 도형 데이터셋 | 최신 연구 논문 | HyperAI초신경