HyperAI초신경
3일 전

VL-Cogito: 고급 다중모달 추론을 위한 점진적 커리큘럼 강화 학습

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong
VL-Cogito: 고급 다중모달 추론을 위한 점진적 커리큘럼 강화 학습
초록

강화학습은 대규모 언어 모델의 추론 능력을 향상시키는 데 효과적임이 입증되었다. 최근 연구들은 이 개념을 다중모달 추론 과제로 점차 확장해왔다. 특히 의미적 내용과 문제 설정 측면에서 다중모달 과제는 본질적으로 복잡하고 다양한 특성을 지니고 있어, 기존 모델들은 다양한 도메인과 난이도 수준에서 안정적인 성능을 보이지 못하는 경우가 많다. 이러한 한계를 극복하기 위해, 본 연구는 새로운 다단계 점진적 커리큘럼 강화학습(Progressive Curriculum Reinforcement Learning, PCuRL) 프레임워크를 통해 훈련된 고도화된 다중모달 추론 모델인 VL-Cogito를 제안한다. PCuRL은 과제의 난이도를 점차 증가시키며 모델을 체계적으로 안내함으로써, 다양한 다중모달 환경에서의 추론 능력을 크게 향상시킨다. 이 프레임워크는 두 가지 핵심 혁신을 도입한다: (1) 온라인 난이도 소프트 가중치 메커니즘(online difficulty soft weighting mechanism), 즉 강화학습의 각 훈련 단계에서 훈련 난이도를 동적으로 조정함; (2) 동적 길이 보상 메커니즘(dynamic length reward mechanism), 이는 과제의 복잡도에 따라 모델이 추론 경로의 길이를 적응적으로 조절하도록 유도하여 추론의 효율성과 정확성 사이의 균형을 유지한다. 실험 평가 결과, VL-Cogito는 수학, 과학, 논리, 일반 이해 등 다양한 분야를 아우르는 주요 다중모달 벤치마크에서 기존의 추론 중심 모델들과 비교해 일관되게 동등하거나 우수한 성능을 보이며, 본 연구의 접근 방식의 효과성을 입증하였다.