3일 전

We-Math 2.0: 시각적 수학적 사고를 촉진하는 다기능 수학책 시스템

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
We-Math 2.0: 시각적 수학적 사고를 촉진하는 다기능 수학책 시스템
초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 다양한 작업에서 놀라운 성능을 보여왔지만, 복잡한 수학적 추론 능력에서는 여전히 한계를 드러내고 있다. 기존 연구는 주로 데이터셋 구축 및 방법 최적화에 집중해 왔으며, 종종 두 가지 핵심 요소를 간과하고 있다. 즉, 포괄적인 지식 기반 설계와 모델 중심의 데이터 공간 모델링이다. 본 논문에서는 구조화된 수학 지식 체계, 모델 중심의 데이터 공간 모델링, 그리고 강화학습(Reinforcement Learning, RL) 기반의 학습 프레임워크를 통합한 유일한 시스템인 We-Math 2.0을 제안한다. 이 시스템은 MLLMs의 수학적 추론 능력을 종합적으로 향상시키는 데 기여한다. We-Math 2.0의 주요 기여는 네 가지이다. (1) MathBook 지식 체계: 491개의 지식 포인트와 1,819개의 기본 원리로 구성된 다층 계층 구조를 갖춘 다섯 단계 수준의 지식 체계를 구축하였다. (2) MathBook-Standard 및 MathBook-Pro: MathBook-Standard은 이중 확장 방식을 통해 광범위한 개념 커버리지와 유연성을 보장하는 데이터셋으로 개발되었다. 또한, 삼차원 난이도 공간을 정의하고 각 문제당 7개의 진화형 변형을 생성함으로써, 강건한 학습을 위한 도전적인 데이터셋인 MathBook-Pro를 구축하였다. (3) MathBook-RL: 두 단계 강화학습 프레임워크를 제안하였다. 첫 번째 단계인 Cold-Start Fine-tuning은 지식 기반의 사고 과정(chain-of-thought) 추론과 모델을 일치시킨다. 두 번째 단계인 Progressive Alignment RL은 평균 보상 학습과 동적 데이터 스케줄링을 활용하여 난이도 수준 간의 점진적 일치를 달성한다. (4) MathBookEval: 모든 491개의 지식 포인트를 포괄하고 다양한 추론 단계 분포를 갖춘 종합적인 평가 벤치마크를 제안하였다. 실험 결과, MathBook-RL은 네 가지 널리 사용되는 벤치마크에서 기존 기준 모델들과 경쟁력을 갖추며, MathBookEval에서 우수한 성능을 기록하였다. 이는 수학적 추론 능력에 있어서 희망적인 일반화 성능을 시사한다.

We-Math 2.0: 시각적 수학적 사고를 촉진하는 다기능 수학책 시스템 | 최신 연구 논문 | HyperAI초신경