BMMR: 대규모 양방언어 다중모드 다학문적 추론 데이터셋

본 논문에서는 BMMR(Bilingual, Multimodal, Multi-Disciplinary Reasoning dataset)를 소개합니다. 이는 커뮤니티가 대규모 다중 모드 모델(Large Multimodal Models, LMMs)을 개발하고 평가할 수 있도록 설계된 대규모 양방향, 다중 모드, 다학제 추론 데이터셋입니다. BMMR은 300개의 유네스코 정의 학문 분야에 걸친 11만 개의 대학 수준 문제로 구성되어 있으며, 선택형, 완성형, 개방형 질문 등 다양한 형식으로 책, 시험, 퀴즈 등 인쇄 및 디지털 매체에서 수집되었습니다. 모든 데이터는 인간이 참여하는 확장 가능한 프레임워크를 통해 선별 및 필터링되었으며, 각 사례는 고품질의 추론 경로와 짝을 이루고 있습니다.데이터셋은 두 부분으로 구성됩니다: 첫째, BMMR-Eval은 중국어와 영어로 여러 학문 분야에 걸쳐 LMMs의 지식과 추론 능력을 포괄적으로 평가하기 위한 20,458개의 고품질 사례로 구성되어 있습니다. 둘째, BMMR-Train은 88,991개의 사례를 포함하여 추가 연구 및 개발을 지원하며, 현재 수학적 추론에 집중된 연구 영역을 다양한 학문 분야와 도메인으로 확장합니다.또한 본 논문에서는 과정 기반 다학제 검증기(BMMR-Verifier)를 제안하여 추론 경로를 정확하고 세밀하게 평가할 수 있도록 합니다. 24개 모델에 대한 광범위한 실험 결과 (i) 최신 기술(SOTA) 모델(예: o3와 Gemini-2.5-Pro)조차도 BMMR-Eval에서 여전히 큰 개선 여지가 있음을 (ii) 추론 모델들이 학문 분야 편향성을 보이며 특정 주제에서만 LMMs보다 우수한 성능을 발휘함을 (iii) 오픈 소스 모델들이 상용 모델들에 비해 여전히 뒤처져 있음을 (iv) BMMR-Train에서 미세 조정(fine-tuning)하면 이 간극이 좁혀짐을 확인하였습니다.더욱이 우리는 BMMR-Verifier를 사용하여 추론 체인 분석과 다른 심층 연구를 수행하여 LMMs가 다학제 추론에서 직면하고 있는 어려움들을 밝혔습니다. 우리는 이 데이터셋을 공개할 예정이며, 우리의 연구가 커뮤니티에게 통찰력과 기여를 제공하기를 바랍니다.