HyperAIHyperAI

Command Palette

Search for a command to run...

LLM-Skirmish: Claude Opus dominiert in Echtzeit-Strategiespiel

Seit einem Jahr zeichnet sich eine steigende Begeisterung für den Einsatz von Spielen zur Bewertung von großen Sprachmodellen (LLMs) ab. Doch ein auffälliger Widerspruch bleibt: Während frontier-LLMs in der Lage sind, komplexe Programmierprojekte in einem einzigen Schritt zu erstellen, scheitern sie oft an einfachen Aufgaben wie dem Durchqueren von Pokémon Red’s Mt. Moon. Um diesen Disparität aufzudecken und die Stärke moderner LLMs im Codieren in den Fokus zu rücken, wurde LLM Skirmish entwickelt – ein Benchmark-System, das LLMs in 1v1-Echtzeit-Strategiespielen gegeneinander antreten lässt. Inspiriert von Screeps, einem Open-Source-MMO-RTS für Programmierer, in dem Spieler JavaScript-Strategien schreiben, die im Spiel ausgeführt werden, nutzt LLM Skirmish eine modifizierte Version der Screeps-API. Die Teilnehmer schreiben Strategien in JavaScript, die in einer isolierten Docker-Umgebung über OpenCode ausgeführt werden, einem offenen agentenbasierten Coding-Harness, der Reproduzierbarkeit gewährleistet. Der Wettbewerb besteht aus fünf Runden, in denen jedes Modell alle anderen jeweils einmal spielt – insgesamt 50 Matches pro Turnier. Nach jeder Runde können die Modelle die Ergebnisse der vorherigen Runden analysieren und ihre Strategien anpassen, was in-context-Learning testet. Die Ergebnisse zeigen deutliche Unterschiede: Claude Opus 4.5 führt mit 85 Siegen bei 15 Niederlagen (85 % Gewinnquote) und einem ELO von 1778. GPT 5.2 folgt mit 68 Siegen (68 %) und ELO 1625. Grok 4.1 Fast und GLM 4.7 liegen deutlich zurück mit 39 % und 32 % Gewinnquote. Besonders auffällig ist Gemini 3 Pro: Es startete mit einer beeindruckenden 70 % Gewinnquote in Runde 1, verlor aber anschließend kontinuierlich an Effektivität und erreichte in Runden 2–5 nur noch 15 %. Eine qualitative Analyse zeigt, dass seine Skripte in Runde 1 extrem kurz waren und simplifizierte Strategien nutzten. In späteren Runden überlastete es jedoch seinen Kontext mit zu vielen vorherigen Ergebnissen – ein Phänomen, das als „context rot“ bezeichnet wird. Dies deutet darauf hin, dass Gemini 3 Pro Schwierigkeiten hat, relevante Informationen aus umfangreichen Kontexten zu extrahieren, möglicherweise aufgrund einer unpassenden Interaktion mit OpenCode. Die Leistungssteigerung über die Runden ist bei den meisten Modellen signifikant: Claude Opus 4.5 (+20 %), GLM 4.7 (+16 %), GPT 5.2 (+7 %) und Grok (+6 %). GPT 5.2 zeigt zudem eine bemerkenswerte Entwicklung – es ist das einzige Modell, das in Runde 5 gegen Claude Opus 4.5 gewinnt und so dessen Dominanz bremsen kann. GLM 4.7 zeigt eine exakte 50 % Gewinnquote in Kopf-an-Kopf-Begegnungen, wird aber von Grok um 15 Prozentpunkte in der Siegquote hinter sich gelassen. In Bezug auf Kosten-effizienz zeigt GPT 5.2 eine herausragende Leistung: Mit fast 1,7-fach höherem ELO pro Dollar im Vergleich zu Claude Opus 4.5 ist es die wirtschaftlich sinnvollste Wahl. Insgesamt demonstriert LLM Skirmish, dass moderne LLMs zwar in der Lage sind, komplexe strategische Codierung zu erlernen und sich über mehrere Runden zu verbessern, aber auch erhebliche Unterschiede in der Fähigkeit zur Kontextverarbeitung, Planung und Effizienz aufweisen. Die Ergebnisse unterstreichen die Notwendigkeit, nicht nur die Leistung, sondern auch die Robustheit und Kostenstruktur von Modellen in realistischen, dynamischen Umgebungen zu bewerten.

Verwandte Links

Hacker NewsHacker News
LLM-Skirmish: Claude Opus dominiert in Echtzeit-Strategiespiel | Aktuelle Beiträge | HyperAI