Command Palette
Search for a command to run...
Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

초록
이미지 캡셔닝은 시각적 영역과 언어적 영역을 연결하는 기초적인 과제로서, 대규모 시각-언어 모델(LVLM)의 사전 학습에서 핵심적인 역할을 한다. 현재 최첨단 캡셔닝 모델들은 일반적으로 감독적 미세조정(SFT) 방식으로 학습되며, 이는 인간이나 특허 모델에 의해 제공된 비용이 크고 확장성이 낮은 레이블 데이터에 의존한다. 이러한 접근 방식은 모델이 특정 참조 답변을 단순히 기억하게 만들며, 다양한 창의적인 설명을 생성하는 능력과 일반화 능력을 제한한다. SFT의 이러한 한계를 극복하기 위해, 우리는 이미지 캡셔닝이라는 개방형 과제에 검증 가능한 보상 기반 강화학습(RLVR) 프레임워크를 적용하는 것을 제안한다. 그러나 주요 과제는 본질적으로 주관적인 ‘좋은 캡셔닝’의 정의에 기반한 객관적인 보상 함수를 설계하는 것이다. 우리는 이를 해결하기 위해 새로운 학습 프레임워크인 캡셔닝 강화학습(CapRL)을 제안한다. CapRL은 캡셔닝의 품질을 그 활용도를 통해 재정의한다: 고품질의 캡셔닝은 해당 이미지에 관한 질문에 대해 비시각적 언어모델이 정확하게 답변할 수 있도록 해야 한다. CapRL은 두 단계로 분리된 파이프라인을 사용한다. 첫 번째 단계에서 LVLM이 캡셔닝을 생성하고, 두 번째 단계에서는 별도의 시각 정보 없이 작동하는 언어모델이 해당 캡셔닝만을 근거로 다중 선택형 질문(MCQ)에 답하는 정확도를 기반으로 객관적 보상이 산출된다. 이는 RLVR을 주관적인 이미지 캡셔닝 과제에 적용한 최초의 연구로, CapRL이 다양한 설정에서 상당한 성능 향상을 보임을 입증한다. CapRL-3B가 레이블링한 CapRL-5M 캡셔닝 데이터셋을 기반으로 사전 학습할 경우, 12개의 벤치마크에서 전반적인 성능 향상이 발생한다. 또한, 캡셔닝 품질 평가를 위한 Prism 프레임워크 내에서 CapRL은 Qwen2.5-VL-72B와 유사한 성능을 달성하며, 기준 모델 대비 평균 8.4%의 성능 향상을 기록한다.