HyperAI
il y a 16 jours

Rapport Technique Skywork-R1V3

Wei Shen; Jiangbo Pei; Yi Peng; Xuchen Song; Yang Liu; Jian Peng; Haofeng Sun; Yunzhuo Hao; Peiyu Wang; Yahui Zhou
Rapport Technique Skywork-R1V3
Résumé

Nous présentons Skywork-R1V3, un modèle avancé et open-source de vision-langue (VLM) qui inaugure une nouvelle approche du raisonnement visuel. Son innovation majeure réside dans le transfert efficace des compétences en raisonnement des grands modèles de langage uniquement textuels (LLMs) vers des tâches visuelles. Les performances remarquables de Skywork-R1V3 proviennent principalement de notre cadre d'entraînement par renforcement (RL) élaboré, qui active et améliore efficacement les capacités de raisonnement du modèle sans nécessiter un entraînement préalable continu supplémentaire. Grâce à ce cadre, nous mettons également en lumière le rôle fondamental du module connecteur pour atteindre une alignement robuste intermodale dans les modèles de raisonnement multimodal. De plus, nous introduisons un indicateur unique de la capacité de raisonnement : l'entropie des jetons critiques de raisonnement, qui s'est avérée très efficace pour la sélection des points de contrôle lors de l'entraînement par renforcement. Skywork-R1V3 obtient des résultats d'avant-garde sur MMMU, passant de 64,3% à 76,0%, ce qui correspond aux capacités humaines de niveau débutant. Notamment, notre approche d'entraînement postérieur alimentée par le RL permet même au modèle à 38 milliards de paramètres de rivaliser avec les meilleurs VLMs propriétaires. L'implémentation réussit à transférer le raisonnement mathématique vers d'autres tâches liées au raisonnement dans divers domaines. Nous incluons également une analyse des stratégies d'apprentissage par curriculum et d'affinage par renforcement, ainsi qu'une discussion plus large sur le raisonnement multimodal. Skywork-R1V3 représente une avancée significative dans le domaine du raisonnement multimodal, démontrant que le RL est un moteur puissant pour améliorer les capacités des VLMs open-source.