Command Palette
Search for a command to run...
Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

초록
다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 단계별 사고 능력을 갖추고 있어 복잡한 추론 문제에서 뛰어난 성능을 보여왔다. 그러나 이러한 사고 과정은 복잡한 추론 없이도 해결 가능한 단순한 문제에 대해서는 불필요한 반복을 초래한다. 이러한 비효율성을 해결하기 위해, 문제의 복잡도에 따라 사고 여부를 자동으로 결정할 수 있는 자동 사고(auto-thinking) MLLM인 R-4B를 제안한다. R-4B의 핵심 아이디어는 이중 모드 안네일링(bi-mode annealing)을 활용해 모델에 사고 및 비사고 능력을 동시에 부여하고, 이중 모드 정책 최적화(Bi-mode Policy Optimization, BPO)를 적용하여 사고 과정을 활성화할지 여부를 정확히 판단할 수 있도록 모델을 향상시키는 것이다. 구체적으로, 먼저 다양한 주제를 아우르는 정교하게 구성된 데이터셋에서 모델을 훈련하며, 이 데이터셋에는 사고 모드와 비사고 모드의 샘플이 모두 포함된다. 이후, 개선된 GRPO 프레임워크 하에서 두 번째 단계의 훈련을 수행하는데, 이 과정에서 정책 모델은 각 입력 쿼리에 대해 두 가지 모드(사고 및 비사고)로 응답을 생성하도록 강제된다. 실험 결과, R-4B는 25개의 도전적인 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 대부분의 과제에서 Qwen2.5-VL-7B보다 뛰어난 성능을 보였으며, Kimi-VL-A3B-Thinking-2506(16B)와 같은 더 큰 규모의 모델과 유사한 성능을 추론 중심 벤치마크에서 달성하면서도 낮은 계산 비용을 구현하였다.