HyperAI초신경
16일 전

Skywork-R1V3 기술 보고서

Wei Shen; Jiangbo Pei; Yi Peng; Xuchen Song; Yang Liu; Jian Peng; Haofeng Sun; Yunzhuo Hao; Peiyu Wang; Yahui Zhou
Skywork-R1V3 기술 보고서
초록

우리는 시각-언어 모델(Vision-Language Model, VLM)의 새로운 접근 방식을 선도하는 고급 오픈 소스 시각-언어 모델인 Skywork-R1V3를 소개합니다. 이 모델의 핵심 혁신은 텍스트 전용 대형 언어 모델(Large Language Models, LLMs)에서 시각적 작업으로 추론 능력을 효과적으로 이전하는 데 있습니다. Skywork-R1V3의 우수한 성능은 주로 우리의 정교한 후 훈련 강화학습(RL) 프레임워크에서 비롯되며, 이 프레임워크는 추가적인 사전 훈련 없이도 모델의 추론 능력을 활성화하고 향상시키는 데 효과적입니다. 이를 통해 우리는 다중모달 추론 모델에서 견고한 교차모달 정렬을 달성하는 연결 모듈(connector module)의 근본적인 역할을 더욱 밝혀냈습니다. 또한, RL 훈련 중 체크포인트 선택에 매우 효과적인 독특한 추론 능력 지표인 중요 추론 토큰의 엔트로피(entropy of critical reasoning tokens)를 도입하였습니다. Skywork-R1V3는 MMMU에서 최고 수준의 결과를 달성하여 64.3%에서 76.0%로 크게 개선되었으며, 이 성능은 초보 수준의 인간 능력과 맞먹습니다. 특히, 우리의 강화학습 기반 후 훈련 접근 방식은 38B 파라미터 모델조차 최상위 폐쇄 소스 VLM들과 경쟁할 수 있게 합니다. 이 구현은 수학적 추론을 다른 관련 과목의 추론 작업으로 성공적으로 전환시켰습니다. 또한, 커리큘럼 학습과 강화 미세 조정 전략에 대한 분석 및 다중모달 추론에 관한 더 넓은 논의를 포함하고 있습니다. Skywork-R1V3는 다중모달 추론 분야에서 중요한 발전을 나타내며, 오픈 소스 VLM 기능을 발전시키기 위한 강화학습(RL)의 강력한 동력원임을 보여줍니다.