비전 제로: 전략적 게임화된 자체 대결을 통한 확장 가능한 VLM 자가 개선

강화학습(RL)은 시각-언어 모델(VLM)의 추론 능력을 효과적으로 향상시킬 수 있으나, 기존의 방법들은 인간의 수작업이 필요한 방대한 데이터셋에 크게 의존하고 있어, 데이터의 체계적인 구축과 검증에 막대한 노동력이 소요되며, 이로 인해 학습 비용이 극도로 높아져 VLM의 실용적 적용이 제한되고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 임의의 이미지 쌍에서 생성된 경쟁적 시각 게임을 통해 VLM이 스스로 개선될 수 있도록 하는 도메인 무관형 프레임워크인 Vision-Zero를 제안한다. 구체적으로 Vision-Zero는 다음과 같은 세 가지 핵심 특성을 갖는다. (1) 전략적 자가대결 프레임워크: Vision-Zero는 ‘누가 스파이인가’(Who Is the Spy) 스타일의 게임을 통해 VLM을 훈련시킨다. 이 과정에서 모델은 다수의 역할을 맡으며 전략적 추론과 행동을 수행하게 되며, 상호작용 기반의 게임 플레이를 통해 인간의 레이블링 없이도 자동으로 훈련 데이터를 생성할 수 있다. (2) 임의의 이미지에서 생성되는 게임 플레이: 기존의 게임화된 프레임워크와 달리, Vision-Zero는 임의의 이미지 쌍에서도 게임을 생성할 수 있어, 다양한 도메인에 걸쳐 모델의 추론 능력을 향상시키며, 다양한 작업에 대해 뛰어난 일반화 성능을 보여준다. 본 연구에서는 CLEVR 기반의 합성 장면, 차트, 실제 세계 이미지 등 세 가지 서로 다른 유형의 이미지 데이터셋을 활용하여 이 유연성과 다용도성을 입증하였다. (3) 지속 가능한 성능 향상: 본 연구는 자가대결(Self-Play)과 검증 가능한 보상 기반 강화학습(RLVR)을 번갈아 적용하는 새로운 학습 알고리즘인 반복적 자가대결 정책 최적화(Iterative-SPO)를 도입하여, 자가대결만을 사용하는 경우 흔히 발생하는 성능 정체 현상을 완화하고 장기적으로 지속 가능한 성능 향상을 달성한다. 레이블 없는 데이터만을 사용함에도 불구하고, Vision-Zero는 추론, 차트 질의 응답, 시각 중심 이해 등 다양한 과제에서 기존의 레이블 기반 방법들을 능가하는 최신 기술 수준의 성능을 달성하였다. 모델 및 코드는 https://github.com/wangqinsi1/Vision-Zero 에 공개되었다.