HyperAIHyperAI

Command Palette

Search for a command to run...

스카이워크-R1V4: 이미지와 딥리서치를 통한 혼합 사고를 통한 에이전트형 멀티모달 지능으로의 도전

초록

최근 다중모달 에이전트 시스템에서의 진전에도 불구하고, 기존 접근법은 이미지 조작과 웹 검색을 분리된 기능으로 취급하며, 비용이 큰 강화학습에 크게 의존하고, 실제 도구 실행 트레이스에 기반한 계획 수립이 부족한 문제가 있다. 이러한 한계를 해결하기 위해, 우리는 다중모달 계획, 능동적인 이미지 조작(‘이미지를 통해 사고하기’), 심층적인 다중모달 검색, 그리고 무엇보다도 시각적 연산과 외부 지식 검색을 동적으로 번갈아가며 수행하는 혼합 추론을 통합한 30B(A3B) 파라미터 다중모달 에이전트 모델인 Skywork-R1V4를 제안한다. Skywork-R1V4는 3만 개 미만의 고품질이며 계획-실행 일관성을 갖춘 트레이젝토리만을 사용해 지도 학습으로만 훈련되었으며, 단계별 일관성 필터링을 통해 검증되었다. 이 모델은 인지 및 다중모달 검색 벤치마크에서 최신 기준을 달성하며, MMSearch에서는 66.1, FVQA에서는 67.2의 점수를 기록하여 11개 지표 전부에서 Gemini 2.5 Flash를 상회한다. 추론 시 Skywork-R1V4는 긴 수평적 추론 능력을 발현하여 복잡한 다단계 작업을 해결하기 위해 10개 이상의 도구 호출을 성공적으로 조율한다. 본 연구 결과는, 강화학습에 의존하지 않고도 정교하게 구성된 지도 학습만으로도 고도화된 다중모달 에이전트 지능을 달성할 수 있음을 입증한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
스카이워크-R1V4: 이미지와 딥리서치를 통한 혼합 사고를 통한 에이전트형 멀티모달 지능으로의 도전 | 문서 | HyperAI초신경