HyperAI초신경

MV-MATH 수학적 추론 주석 데이터 세트

날짜

2달 전

크기

40.82 MB

기관

중국과학원(중국과학원)

라이선스

MIT

MV-MATH는 중국과학원 자동화 연구소가 2025년에 제안한 다중 모달 수학적 추론 벤치마크 데이터 세트입니다. 이 데이터 세트의 목적은 다중 시각 장면에서 다중 모달 대규모 언어 모델(MLLM)의 수학적 추론 능력을 종합적으로 평가하는 것입니다.MV-MATH: 다중 시각적 맥락에서 다중 모드 수학적 추론 평가", CVPR 2025에 승인되었습니다.

MV-MATH 데이터 세트에는 2,009개의 고품질 수학 문제가 포함되어 있으며, 이는 객관식 문제, 빈칸 채우기 문제, 다단계 문제라는 세 가지 유형으로 나뉩니다. 데이터 세트에는 여러 개의 시각적 장면이 포함되어 있으며, 각 질문에는 2~8개의 이미지가 포함되어 있습니다. 이러한 이미지는 텍스트와 얽혀 복잡한 다중 시각 장면을 형성하는데, 이는 실제 세계의 수학 문제에 더 가깝고 다중 시각 정보를 처리하는 모델의 추론 능력을 효과적으로 평가할 수 있습니다. 둘째, 데이터 세트에는 풍부한 주석이 달려 있습니다. 각 샘플은 최소 두 명의 주석자에 의해 교차 검증되었습니다. 주석에는 질문, 답변, 상세 분석, 이미지 관련성이 포함되어 있어 모델 평가를 위한 자세한 정보를 제공합니다. 또한, 이 데이터 세트는 기본 산술에서 고급 기하학까지, 해석 기하학, 대수학, 거리 기하학, 조합 기하학, 변환 기하학, 논리학, 입체 기하학, 산술, 조합 기하학, 기술 기하학, 통계학을 포함한 11개 수학 분야를 포괄합니다. 데이터 세트는 또한 자세한 답변의 길이에 따라 세 가지 난이도로 나뉘며, 이를 통해 다양한 수학 분야에서 모델의 추론 능력을 종합적으로 평가할 수 있습니다. 이 데이터 세트는 이미지 상관관계의 피처 레이블을 처음으로 도입하여 데이터 세트를 상호 종속 집합(MD)과 독립 집합(ID)의 두 하위 집합으로 나누었다는 점이 언급할 가치가 있습니다. MD 하위 집합에서는 이미지가 서로 연관되어 있으며, 하나의 이미지를 이해하려면 다른 이미지를 참조해야 합니다. 반면 ID 하위 집합에서는 이미지가 독립적이며 개별적으로 해석될 수 있습니다.

실제 K-12 교육 시나리오에서 비롯된 것일 뿐만 아니라 그래픽과 텍스트를 결합하여 학생들이 복잡한 수학 문제를 풀 수 있도록 돕는 지능형 튜터링 시스템을 개발하는 데 사용할 수 있으며, 다중 모드 학습 연구를 위한 표준화된 평가 도구를 제공하여 연구자가 수학적 추론 모델의 성능 격차를 파악하고 개선하는 데 도움이 됩니다. 그러나 GPT-4o와 QvQ와 같은 주류의 다중 모달 대규모 언어 모델을 테스트한 결과, MV-MATH 데이터 세트에 대한 점수는 각각 32.1과 29.3으로, 두 점수 모두 합격선보다 낮았습니다. 이는 현재의 다중 모달 대규모 모델이 여전히 다중 시각적 수학적 추론 과제에서 상당한 어려움에 직면해 있음을 보여줍니다.

각 질문 유형에서 추출한 MV-MATH의 예이며, 각 샘플에는 여러 개의 시각적 맥락이 포함되어 있습니다.
MV-MATH.torrent
시딩 3다운로드 중 0완료됨 28총 다운로드 횟수 45
  • MV-MATH/
    • README.md
      3.03 KB
    • README.txt
      6.05 KB
      • data/
        • main.zip
          40.82 MB