2달 전

다중 모드 수학적 추론 측정: MATH-Vision 데이터셋을 활용한 연구

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li
다중 모드 수학적 추론 측정: MATH-Vision 데이터셋을 활용한 연구
초록

최근 대형 다중모드 모델(Large Multimodal Models, LMMs)의 발전은 시각적 맥락 내에서 수학적 추론에 있어 유망한 결과를 보여주고 있으며, 기존 벤치마크인 MathVista에서 인간 수준의 성능에 접근하고 있습니다. 그러나 이러한 벤치마크가 다루는 질문의 다양성과 주제의 폭에는 상당한 제약이 있다는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 실제 수학 경시대회에서 출처를 얻은 3,040개의 고품질 수학 문제와 시각적 맥락을 포함하는 MATH-Vision (MATH-V) 데이터셋을 제시합니다. 16개의 독특한 수학 분야와 5단계 난이도로 구성된 이 데이터셋은 LMMs의 수학적 추론 능력을 평가하기 위한 포괄적이고 다양한 도전 과제를 제공합니다. 광범위한 실험을 통해 현재 LMMs와 인간 성능 간에 명확한 성능 차이가 있음을 밝혀냈으며, 이는 LMMs의 추가적인 발전이 필수임을 강조합니다. 또한 우리의 상세한 분류는 LMMs의 철저한 오류 분석을 가능하게 하며, 향후 연구 및 개발을 안내할 귀중한 통찰력을 제공합니다. 본 프로젝트는 https://mathvision-cuhk.github.io 에서 확인할 수 있습니다.