HyperAI초신경
7일 전

Open Vision Reasoner: 언어적 인지 행동의 시각적 추론으로의 전이

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
Open Vision Reasoner: 언어적 인지 행동의 시각적 추론으로의 전이
초록

대형 언어 모델(LLM)의 뛰어난 추론 능력은 검증 가능한 보상을 통해 강화되는 인지 행동에서 비롯됩니다. 본 연구는 이 원칙을 다중모달 LLM(MLLM)에 적용하여 고급 시각적 추론을 실현하는 방법을 탐구합니다. Qwen2.5-VL-7B를 기반으로 한 두 단계 패러다임을 소개합니다: 대규모 언어 초기 세밀 조정(fine-tuning)과 약 1,000단계에 걸친 다중모달 강화 학습(RL)으로, 이는 모든 이전 오픈 소스 노력보다 규모가 큽니다. 이 선구적인 연구는 세 가지 근본적인 통찰력을 제공합니다: 1) 언어적 정신 이미지로 인해 초기 세밀 조정 과정에서 놀랍게도 행동 전환이 일찍 나타납니다. 2) 초기 세밀 조정은 시각적 행동을 넓게 기억하지만, RL은 효과적인 패턴을 중요한 차원에서 식별하고 확장합니다. 3) 전략적으로 시각적 반성 등의 고용량 행동이 우대받습니다. 우리의 결과 모델인 Open-Vision-Reasoner(OVR)는 MATH500에서 95.3%, MathVision에서 51.8%, MathVerse에서 54.6%의 성능을 달성하며, 다양한 추론 벤치마크에서 최고 수준의 성능을 보여줍니다. 우리는 모델, 데이터 및 훈련 동역학을 공개하여 더 강력하고 행동이 일치된 다중모달 추론기의 개발을 촉진하기 위해 노력하고 있습니다.