시각-언어 지연 사고를 위한 반-오프-정책 강화 학습

시각-언어 대형 모델(LVLMs)에 시각적 '천천히 생각하는' 추론 능력을 강화하는 것은 복잡한 다중모달 작업을 해결하는 데 필수적입니다. 그러나 LVLMs는 주로 시각-언어 정렬(vision-language alignment)을 통해 훈련되므로, 정책 기반 강화학습(on-policy reinforcement learning, RL)을 사용하여 '천천히 생각하는' 능력을 개발하는 것이 어렵습니다. 이는 초기 능력에 의해 롤아웃 공간이 제한되기 때문입니다. 오프-정책 강화학습(off-policy RL)은 현재 정책을 넘어서는 방향으로 나아갈 수 있는 방법이지만, 외부 모델에서 트랙토리를 직접 정제(distill)하는 것은 모델 간 시각적 인식 능력의 불일치로 인해 시각적 환각(visual hallucinations)을 유발할 수 있습니다. 이러한 문제를 해결하기 위해 본 논문은 시각-언어 '천천히 생각하는' 추론을 위한 간단하고 확장 가능한 반-오프-정책 강화학습(Semi-Off-Policy RL)인 SOPHIA를 제안합니다. SOPHIA는 학습 가능한 LVLM에서 얻은 정책 내 시각 이해(visual understanding)와 언어 모델에서의 오프-정책 '천천히 생각하는' 추론을 결합하여 반-오프-정책 행동 모델을 구축합니다. 이 모델은 추론 과정에 결과 기반의 보상을 할당하고, 시각적 보상을 역전파(backpropagate)하여 '천천히 생각하는' 추론 능력을 학습합니다. 이후 LVLM은 오프-정책 강화학습 알고리즘을 통해 역전파된 보상을 이용하여 얻은 추론 트랙토리로부터 '천천히 생각하는' 추론 능력을 학습합니다. InternVL2.5와 InternVL3.0(8B 및 38B 규모)을 대상으로 한 광범위한 실험 결과는 SOPHIA의 효과성을 입증합니다. 특히, SOPHIA는 InternVL3.0-38B 모델을 평균적으로 8.50% 향상시켜 여러 다중모달 추론 기준에서 오픈소스 LVLM 모델 중 최상의 성능을 달성하며, MathVision과 OlympiadBench와 같은 도전적인 테스트 케이스에서 GPT-4.1과 같은 일부 폐쇄소스 모델보다도 우수한 성능을 보입니다. 각각 49.08%와 49.95%의 pass@1 정확도를 달성했습니다. 분석 결과, SOPHIA는 감독형 미세조정(supervised fine-tuning) 및 직접적인 정책 기반 강화학습(on-policy RL) 방법보다 우수하며, 향후 정책 기반 학습을 위한 더 나은 정책 초기화를 제공합니다.