HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours
Benchmarks
LLM

GLM 5.2 bat Claude sur les benchmarks de cybersécurité

Semgrep a publié les résultats d'un benchmark ciblant la détection de vulnérabilités de type IDOR, c'est-à-dire des références directes à des objets de données non sécurisées, mettant en lumière une performance remarquable du modèle open-weight GLM 5.2 développé par Zhipu AI. Lancé officiellement en juin 2026, ce modèle a atteint un score F1 de 39 %, surpassant Claude Code d'Anthropic qui a obtenu 32 %, pour un coût d'environ 0,17 dollar par vulnérabilité identifiée. L'expérience a été conçue pour isoler les capacités intrinsèques des modèles en utilisant un environnement d'exécution minimal. Les systèmes testés ont reçu uniquement le code source et une instruction textuelle, sans les outils de découverte automatique des points d'accès ni de navigation guidée propres aux plateformes de sécurité avancées. Dans ces conditions restrictives, GLM 5.2 s'est imposé comme la meilleure option open-weight, devançant plusieurs agents de codage propriétaires de référence. Il convient de préciser que le statut open-weight désigne ici la publication des paramètres du modèle sous licence MIT, permettant un déploiement en environnement privé et un contrôle renforcé, bien que les données d'entraînement et la chaîne de développement complète restent confidentielles. Les résultats confirment que l'infrastructure d'exécution continue de jouer un rôle déterminant. Le pipeline multimodal interne de Semgrep, qui intègre des modèles comme GPT-5.5 et Claude Opus 4.8 dans un cadre spécialisé en analyse statique, a enregistré des scores supérieurs, respectivement 61 % et 53 %. Cet écart démontre que l'ingénierie des outils d'orchestration compense efficacement les limites des modèles fonctionnant sur la seule base de l'invite. Néanmoins, le décalage de douze points de pourcentage séparant GLM 5.2 des autres modèles open-weight testés, tels que MiniMax M3 ou Kimi K2.7 Code, atteste de progrès notables dans le raisonnement à long terme et la navigation contextuelle. Sur le plan technique, GLM 5.2 utilise une architecture en mélange d'experts totalisant 750 milliards de paramètres, dont 40 milliards sont activés par token, ce qui maîtrise significativement les coûts de calcul. Il supporte une mémoire contextuelle jusqu'à un million de tokens, un atout crucial pour analyser des bases de code étendues et retracer des flux d'authentification. Avec un tarif estimé à environ un sixième de celui des modèles frontaliers comparables, il offre un rapport performance-économie particulièrement attractif pour le déploiement à grande échelle. Ces observations invitent les équipes de sécurité à diversifier leur dépendance envers les solutions propriétaires exclusives. Si la qualité des outils d'accompagnement reste primordiale pour la précision, la montée en puissance des modèles ouverts constitue désormais une alternative crédible, particulièrement pour les organisations exigeant une souveraineté technique ou une optimisation budgétaire. Les chercheurs de Semgrep soulignent que ces mesures restent limitées à la détection d'IDOR sur un jeu de données restreint. La pertinence de GLM 5.2 sur d'autres familles de failles devra être validée, mais cette performance signale un tournant concret dans l'intégration des intelligences artificielles ouvertes par les professionnels de la cybersécurité.

Liens associés