Command Palette
Search for a command to run...
Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

초록
최근 대규모 추론 모델(Large Reasoning Models)의 발전은 이러한 역량을 멀티모달(Multimodal) 도메인으로 확장하는 것에 대한 관심을 고조시켰습니다. 그러나 시각적 추론(Visual Reasoning) 분야의 괄목할 만한 진전에도 불구하고, 투명하고 재현 가능한 데이터 큐레이션 및 학습 전략의 부재는 연구의 확장성(Scalability)을 저해하는 주요 장벽으로 남아 있습니다.본 연구에서는 지도 미세 조정(SFT)과 강화 학습(RL)을 아우르는 멀티모달 추론을 위한 완전히 투명한 2단계 학습 방법론인 OpenMMReasoner를 제안합니다. SFT 단계에서는 엄격한 단계별 검증(Step-by-step validation)을 거친 87만 4천 개(874K) 샘플 규모의 콜드 스타트(Cold-start) 데이터셋을 구축하여, 추론 역량을 위한 견고한 기반을 마련했습니다. 이어지는 RL 단계에서는 다양한 도메인에 걸친 7만 4천 개(74K) 샘플 데이터셋을 활용하여 해당 역량을 더욱 정교화하고 안정화시킴으로써, 보다 강건(Robust)하고 효율적인 학습 프로세스를 구현했습니다.광범위한 평가 결과, 본 연구의 학습 방법론은 강력한 기존 베이스라인 모델들을 상회할 뿐만 아니라, 멀티모달 추론 성능을 결정짓는 데이터 품질과 학습 설계(Training Design)의 결정적인 역할을 입증했습니다. 특히 본 연구의 방법론은 9개의 멀티모달 추론 벤치마크에서 Qwen2.5-VL-7B-Instruct 베이스라인 대비 11.6% 향상된 성능을 달성하였으며, 이는 향후 대규모 멀티모달 추론 연구를 위한 확고한 실증적 토대를 마련한 것입니다. 본 연구와 관련된 모든 코드, 파이프라인 및 데이터는 https://github.com/EvolvingLMMs-Lab/OpenMMReasoner 에서 오픈 소스로 공개되었습니다.