HyperAIHyperAI

Command Palette

Search for a command to run...

Open Vision Reasoner: 언어적 인지 행동의 시각적 추론으로의 전이

초록

대형 언어 모델(LLM)의 뛰어난 추론 능력은 검증 가능한 보상을 통해 강화되는 인지 행동에서 비롯됩니다. 본 연구는 이 원칙을 다중모달 LLM(MLLM)에 적용하여 고급 시각적 추론을 실현하는 방법을 탐구합니다. Qwen2.5-VL-7B를 기반으로 한 두 단계 패러다임을 소개합니다: 대규모 언어 초기 세밀 조정(fine-tuning)과 약 1,000단계에 걸친 다중모달 강화 학습(RL)으로, 이는 모든 이전 오픈 소스 노력보다 규모가 큽니다. 이 선구적인 연구는 세 가지 근본적인 통찰력을 제공합니다: 1) 언어적 정신 이미지로 인해 초기 세밀 조정 과정에서 놀랍게도 행동 전환이 일찍 나타납니다. 2) 초기 세밀 조정은 시각적 행동을 넓게 기억하지만, RL은 효과적인 패턴을 중요한 차원에서 식별하고 확장합니다. 3) 전략적으로 시각적 반성 등의 고용량 행동이 우대받습니다. 우리의 결과 모델인 Open-Vision-Reasoner(OVR)는 MATH500에서 95.3%, MathVision에서 51.8%, MathVerse에서 54.6%의 성능을 달성하며, 다양한 추론 벤치마크에서 최고 수준의 성능을 보여줍니다. 우리는 모델, 데이터 및 훈련 동역학을 공개하여 더 강력하고 행동이 일치된 다중모달 추론기의 개발을 촉진하기 위해 노력하고 있습니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Open Vision Reasoner: 언어적 인지 행동의 시각적 추론으로의 전이 | 문서 | HyperAI초신경