智谱开源GLM-4.5V:刷新41项多模态SOTA,支持长视频理解与前端复刻
Zhipu AI a officiellement lancé et mis en open source son nouveau modèle de raisonnement visuel, GLM-4.5V, qui atteint des performances SOTA (State-of-the-Art, meilleure technologie actuelle) sur 41 benchmarks publics de multimodalité. Ce modèle, disponible sur GitHub, Hugging Face et le community Moda, est publié sous licence MIT, autorisant son utilisation commerciale (lien : https://github.com/zai-org/GLM-V/). GLM-4.5V est un modèle vision-langage (VLM) doté de 106 milliards de paramètres au total, dont 12 milliards activés, construit sur la base du modèle texte phare GLM-4.5-Air. Il s’inscrit dans la lignée technologique de GLM-4.1V-Thinking. Son architecture repose sur trois composants principaux : un encodeur visuel, un adaptateur MLP et un décodeur linguistique. Une innovation clé réside dans l’introduction du 3D-RoPE (Rotation Positional Encoding 3D), qui améliore significativement la capacité du modèle à percevoir et raisonner sur les relations spatiales en trois dimensions. Le modèle supporte également des entrées multimodales longues jusqu’à 64K tokens, et utilise des convolutions 3D pour optimiser le traitement vidéo. Ces caractéristiques lui permettent de gérer non seulement des images, mais aussi des vidéos, tout en assurant une robustesse accrue face aux images à haute résolution ou à des rapports d’aspect extrêmes. Pour renforcer ses capacités multimodales, Zhipu a optimisé le modèle en trois étapes. Durant la phase de pré-entraînement, il a été alimenté par de vastes corpus multimodaux (images et textes croisés) et des contenus à longue portée, renforçant sa compréhension fondamentale des scènes complexes et des vidéos. Ensuite, lors du fine-tuning supervisé (SFT), des exemples d’entraînement au format « chaîne de raisonnement » ont été intégrés, visant à approfondir la capacité de raisonnement causal et la compréhension multimodale. Enfin, dans la phase de réinforcement learning (RL), un système de récompenses multi-domaines a été mis en place, combinant le RLVR (Reinforcement Learning with Verifiable Rewards) et le RLHF (Reinforcement Learning from Human Feedback), permettant une optimisation fine sur des tâches exigeantes comme les problèmes STEM, la localisation multimodale ou les missions d’agents intelligents. Dans ses démonstrations officielles, GLM-4.5V illustre une capacité de raisonnement visuel complète. Sur des images, il peut identifier précisément des objets et fournir leurs coordonnées dans une boîte de délimitation. Il peut aussi, sans recourir à des outils externes, déduire la localisation géographique d’une photo à partir de détails subtils comme la végétation, les indices climatiques ou le style architectural. Dans un test comparatif contre des joueurs humains, GLM-4.5V a battu 99 % des participants lors d’un concours mondial de « jeu de recherche d’image » en 16 heures, atteignant la 66e place mondiale après 7 jours. Bien que des essais sur des photos de parcs à Pékin aient échoué (probablement à cause de la similarité des scènes), les résultats restent impressionnants. Sur les documents complexes, le modèle traite des documents de plusieurs dizaines de pages contenant de nombreux graphiques, en lisant chaque page comme un humain, en synchronisant texte et images pour des extraits précis, des résumés ou des traductions fiables, évitant ainsi les erreurs cumulées des méthodes traditionnelles basées sur OCR + modèle texte. Il dispose également d’une fonction « reconstitution front-end », capable d’analyser des captures d’écran ou des vidéos d’interfaces web pour générer du code HTML, CSS et JavaScript structuré, reproduisant fidèlement la mise en page, le style et même certaines interactions dynamiques — bien que certaines fonctionnalités comme l’ouverture d’un menu latéral aient été ignorées lors de tests. Enfin, grâce à sa capacité d’agent GUI, GLM-4.5V peut interpréter des écrans d’ordinateur, répondre à des questions, localiser des icônes ou exécuter des tâches. Zhipu a également publié une application de bureau assistée, capable de capturer l’écran en temps réel, d’analyser des vidéos ou des documents, et d’assister à des tâches variées : développement, analyse vidéo, résolution de jeux, lecture de documents, etc. Sources : 1. https://x.com/Zai_org/status/1954898011181789431 2. https://huggingface.co/zai-org/GLM-4.5V 3. https://github.com/zai-org/GLM-V/ 4. https://mp.weixin.qq.com/s/8cKtGwUtEvAaPriVzBI1Dg Rédaction et mise en page : He Chenlong