HyperAI
il y a 2 jours

GLM-4.1V-Pensée : Vers une Raisonnement Multimodal Polyvalent avec un Apprentissage par Renforcement Évolutif

Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi
GLM-4.1V-Pensée : Vers une Raisonnement Multimodal Polyvalent avec un Apprentissage par Renforcement Évolutif
Résumé

Nous présentons GLM-4.1V-Pensée, un modèle de vision-langue (VLM) conçu pour améliorer la compréhension et le raisonnement multimodaux à des fins générales. Dans ce rapport, nous partageons nos principales découvertes concernant le développement du cadre d'entraînement axé sur le raisonnement. Nous commençons par développer un modèle de base de vision doté d'un potentiel considérable grâce à une pré-entraîne à grande échelle, qui fixe selon toute vraisemblance la limite supérieure des performances finales. Nous proposons ensuite l'Apprentissage par Renforcement avec Échantillonnage Curriculaire (ARÉC) pour exploiter pleinement le potentiel du modèle, ce qui conduit à une amélioration globale de ses capacités sur une variété de tâches, notamment la résolution de problèmes en sciences, technologie, ingénierie et mathématiques (STEM), la compréhension vidéo, la reconnaissance de contenu, la programmation, l'ancrage sémantique, les agents basés sur des interfaces utilisateur graphiques (GUI) et la compréhension de documents longs. Nous mettons en open source GLM-4.1V-9B-Pensée, qui atteint des performances d'état de l'art parmi les modèles de taille comparable. Dans une évaluation exhaustive sur 28 benchmarks publics, notre modèle surpasses Qwen2.5-VL-7B dans presque toutes les tâches et obtient des performances comparables ou même supérieures sur 18 benchmarks par rapport au modèle nettement plus volumineux Qwen2.5-VL-72B. De manière notable, GLM-4.1V-9B-Pensée démontre également des performances compétitives ou supérieures par rapport aux modèles propriétaires comme GPT-4o sur des tâches complexes telles que la compréhension de documents longs et le raisonnement STEM, soulignant ainsi ses capacités robustes. Le code source, les modèles et plus d'informations sont disponibles à cette adresse : [https URL].