HyperAI초신경
5일 전

BMMR: 대규모 양방언어 다중모드 다학문적 추론 데이터셋

Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
BMMR: 대규모 양방언어 다중모드 다학문적 추론 데이터셋
초록

본 논문에서는 BMMR(Bilingual, Multimodal, Multi-Disciplinary Reasoning dataset)를 소개합니다. 이는 커뮤니티가 대규모 다중 모드 모델(Large Multimodal Models, LMMs)을 개발하고 평가할 수 있도록 설계된 대규모 양방향, 다중 모드, 다학제 추론 데이터셋입니다. BMMR은 300개의 유네스코 정의 학문 분야에 걸친 11만 개의 대학 수준 문제로 구성되어 있으며, 선택형, 완성형, 개방형 질문 등 다양한 형식으로 책, 시험, 퀴즈 등 인쇄 및 디지털 매체에서 수집되었습니다. 모든 데이터는 인간이 참여하는 확장 가능한 프레임워크를 통해 선별 및 필터링되었으며, 각 사례는 고품질의 추론 경로와 짝을 이루고 있습니다.데이터셋은 두 부분으로 구성됩니다: 첫째, BMMR-Eval은 중국어와 영어로 여러 학문 분야에 걸쳐 LMMs의 지식과 추론 능력을 포괄적으로 평가하기 위한 20,458개의 고품질 사례로 구성되어 있습니다. 둘째, BMMR-Train은 88,991개의 사례를 포함하여 추가 연구 및 개발을 지원하며, 현재 수학적 추론에 집중된 연구 영역을 다양한 학문 분야와 도메인으로 확장합니다.또한 본 논문에서는 과정 기반 다학제 검증기(BMMR-Verifier)를 제안하여 추론 경로를 정확하고 세밀하게 평가할 수 있도록 합니다. 24개 모델에 대한 광범위한 실험 결과 (i) 최신 기술(SOTA) 모델(예: o3와 Gemini-2.5-Pro)조차도 BMMR-Eval에서 여전히 큰 개선 여지가 있음을 (ii) 추론 모델들이 학문 분야 편향성을 보이며 특정 주제에서만 LMMs보다 우수한 성능을 발휘함을 (iii) 오픈 소스 모델들이 상용 모델들에 비해 여전히 뒤처져 있음을 (iv) BMMR-Train에서 미세 조정(fine-tuning)하면 이 간극이 좁혀짐을 확인하였습니다.더욱이 우리는 BMMR-Verifier를 사용하여 추론 체인 분석과 다른 심층 연구를 수행하여 LMMs가 다학제 추론에서 직면하고 있는 어려움들을 밝혔습니다. 우리는 이 데이터셋을 공개할 예정이며, 우리의 연구가 커뮤니티에게 통찰력과 기여를 제공하기를 바랍니다.