HyperAI

Depuis un an, l’utilisation des jeux pour évaluer les modèles linguistiques de grande taille (LLM) a suscité un regain d’intérêt, mais un paradoxe persiste : alors que les LLM de pointe résolvent des projets de codage complexes en une seule tentative, ils peinent à sortir de la montagne Moon dans Pokémon Red. Pour mieux mettre en lumière les vraies forces de ces modèles — notamment leur capacité au codage — une nouvelle évaluation, baptisée LLM Skirmish, a été conçue. Inspirée du jeu open source Screeps, un MMO RTS pour programmeurs où les joueurs écrivent du JavaScript pour contrôler leurs stratégies en temps réel, cette compétition met en scène des LLM affrontés dans des duels 1v1 de stratégie en temps réel. Chaque modèle doit écrire un script codé pour gérer une armée, exploiter des ressources et détruire le spawn adverse. Le tournoi s’organise en cinq rounds. À chaque round, chaque modèle affronte tous les autres une fois, soit 10 matchs par round, 50 au total. Les modèles peuvent réviser leurs stratégies après chaque round en s’appuyant sur les résultats des matchs précédents, ce qui permet d’évaluer leur capacité d’apprentissage in-context. L’infrastructure repose sur OpenCode, un cadre open source pour l’agencement de tâches de codage, garantissant une évaluation neutre et reproductible. Chaque agent fonctionne dans un conteneur Docker isolé, avec accès à des outils de développement (édition de fichiers, commandes shell), et reçoit des instructions structurées, des documents de règles et des exemples stratégiques. Les résultats montrent une nette hiérarchie : Claude Opus 4.5 domine avec 85 victoires sur 100 matchs (85 %), un score ELO de 1778. GPT 5.2 suit avec 68 victoires (68 %, ELO 1625), suivi par Grok 4.1 Fast (39 %), GLM 4.7 (32 %) et Gemini 3 Pro (26 %). Une analyse par script révèle que quatre des cinq modèles améliorent significativement leurs performances entre le premier et le cinquième round, avec une augmentation moyenne de 7 à 20 % du taux de victoire. Gemini 3 Pro fait exception : son taux de victoire chute de 70 % en round 1 à 15 % en rounds 2 à 5. Ses scripts sont quatre fois plus courts que ceux des meilleurs modèles, suggérant une stratégie simpliste initiale. Son déclin pourrait être dû à une surcharge de contexte (context rot), probablement causée par une mauvaise gestion des informations des rounds précédents. En termes d’efficacité coût-performance, GPT 5.2 bat Claude Opus 4.5 en offrant près de 1,7 fois plus d’ELO par dollar dépensé. GLM 4.7 se distingue comme un adversaire redoutable, avec un taux de victoire de 50 % contre tous les autres modèles. Grok peine face à GLM, perdant 15 points de pourcentage. GPT 5.2 devient même le seul modèle capable de battre Claude Opus 4.5 en round 5, empêchant ce dernier d’obtenir un score parfait. En résumé, LLM Skirmish révèle que les LLM les plus performants ne sont pas seulement capables de générer du code, mais aussi d’adapter stratégiquement leurs scripts face à l’expérience. Cependant, des biais dans la gestion du contexte ou des incompatibilités avec certains cadres comme OpenCode peuvent altérer les résultats. Cette évaluation ouvre la voie à des benchmarks plus rigoureux, où la capacité d’apprentissage dynamique et la robustesse face à l’accumulation d’information sont autant de critères essentiels.

Liens associés

Liens associés

Liens associés

Command Palette

LLM Skirmish : Claude Opus domine le tournoi de stratégie en temps réel, mais GPT 5.2 montre une résistance inattendue

Liens associés

Command Palette

LLM Skirmish : Claude Opus domine le tournoi de stratégie en temps réel, mais GPT 5.2 montre une résistance inattendue

Liens associés

Command Palette

LLM Skirmish : Claude Opus domine le tournoi de stratégie en temps réel, mais GPT 5.2 montre une résistance inattendue

Liens associés