HyperAIHyperAI

Command Palette

Search for a command to run...

VisionThink: 강화 학습을 통한 지능적이고 효율적인 시각 언어 모델

Senqiao Yang Junyi Li Xin Lai Bei Yu Hengshuang Zhao Jiaya Jia

초록

최근 시각-언어 모델(VLMs)의 발전은 시각 토큰의 수를 늘리는 것으로 성능을 개선하였습니다. 그러나 대부분의 실제 상황에서는 이러한 많은 수의 시각 토큰이 필요하지 않다는 것을 관찰하였습니다. OCR 관련 작업의 일부 하위 집합에서 성능이 크게 떨어지지만, 1/4 해상도로도 대부분의 일반적인 시각 질문 응답(VQA) 작업에서 정확한 성능을 보입니다. 따라서, 우리는 서로 다른 샘플을 다른 해상도로 동적으로 처리하는 방법을 제안하며, 이를 위해 새로운 시각 토큰 압축 패러다임인 VisionThink을 소개합니다. 이 방법은 축소된 이미지부터 시작하여 문제 해결에 충분한지를 지능적으로 판단합니다. 그렇지 않은 경우, 모델은 고해상도 이미지를 요청하기 위한 특수 토큰을 출력할 수 있습니다. 기존의 고정된 프루닝 비율이나 임계값을 사용하여 토큰을 압축하는 효율적인 VLM 방법과 달리, VisionThink은 각 케이스마다 자동으로 토큰 압축 여부를 결정합니다. 결과적으로, OCR 관련 작업에서는 세밀한 시각 이해 능력을 보이며, 동시에 간단한 작업에서는 많은 시각 토큰을 절약합니다.우리는 강화 학습을 채택하고 LLM-as-Judge 전략을 제안하여 일반 VQA 작업에 RL(Reinforcement Learning)을 성공적으로 적용하였습니다. 또한, 안정적이고 합리적인 이미지 크기 조정 호출 비율을 달성하기 위해 보상 함수와 벌점 메커니즘을 신중하게 설계하였습니다. 광범위한 실험들은 우리의 방법이 우수하고 효율적이며 효과적임을 입증하였습니다. 우리의 코드는 https://github.com/dvlab-research/VisionThink에서 확인할 수 있습니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VisionThink: 강화 학습을 통한 지능적이고 효율적인 시각 언어 모델 | 문서 | HyperAI초신경