VisionThink: 강화 학습을 통한 지능적이고 효율적인 시각 언어 모델

최근 시각-언어 모델(VLMs)의 발전은 시각 토큰의 수를 늘리는 것으로 성능을 개선하였습니다. 그러나 대부분의 실제 상황에서는 이러한 많은 수의 시각 토큰이 필요하지 않다는 것을 관찰하였습니다. OCR 관련 작업의 일부 하위 집합에서 성능이 크게 떨어지지만, 1/4 해상도로도 대부분의 일반적인 시각 질문 응답(VQA) 작업에서 정확한 성능을 보입니다. 따라서, 우리는 서로 다른 샘플을 다른 해상도로 동적으로 처리하는 방법을 제안하며, 이를 위해 새로운 시각 토큰 압축 패러다임인 VisionThink을 소개합니다. 이 방법은 축소된 이미지부터 시작하여 문제 해결에 충분한지를 지능적으로 판단합니다. 그렇지 않은 경우, 모델은 고해상도 이미지를 요청하기 위한 특수 토큰을 출력할 수 있습니다. 기존의 고정된 프루닝 비율이나 임계값을 사용하여 토큰을 압축하는 효율적인 VLM 방법과 달리, VisionThink은 각 케이스마다 자동으로 토큰 압축 여부를 결정합니다. 결과적으로, OCR 관련 작업에서는 세밀한 시각 이해 능력을 보이며, 동시에 간단한 작업에서는 많은 시각 토큰을 절약합니다.우리는 강화 학습을 채택하고 LLM-as-Judge 전략을 제안하여 일반 VQA 작업에 RL(Reinforcement Learning)을 성공적으로 적용하였습니다. 또한, 안정적이고 합리적인 이미지 크기 조정 호출 비율을 달성하기 위해 보상 함수와 벌점 메커니즘을 신중하게 설계하였습니다. 광범위한 실험들은 우리의 방법이 우수하고 효율적이며 효과적임을 입증하였습니다. 우리의 코드는 https://github.com/dvlab-research/VisionThink에서 확인할 수 있습니다.