HyperAIHyperAI

Command Palette

Search for a command to run...

LLM対決の真価を問う:コードで戦うリアルタイム戦略大会「LLM Skirmish」で明らかになったトップモデルの実力と課題

人工知能の実力を評価するための新規ゲームベンチマーク「LLM Skirmish」が登場し、注目を集めている。この試合は、大規模言語モデル(LLM)がリアルタイム戦略ゲーム「Screeps」の環境で対戦する形式で、コードによる戦略実行を前提としている。Screepsはプログラマー向けの「プログラマ専用MMO RTSサンドボックス」として知られ、プレイヤーはJavaScriptで戦略を記述し、ゲーム内に実行される。この仕組みが、LLMのコード生成能力を存分に試すのに最適とされ、LLM Skirmishはこれを基に開発された。 本トーナメントでは、5ラウンドにわたり、各モデルが1対1で対戦。各ラウンドでモデルは戦略スクリプトを提出し、前ラウンドの結果をもとに改善が可能。全50試合(10試合×5ラウンド)を実施し、勝率とELOスコアで評価。結果、Claude Opus 4.5が最も高い勝率(85%)とELO(1778)を記録。GPT 5.2が2位(68%、1625)、Grok 4.1 Fastが3位(39%)と続く。一方、Gemini 3 Proは第1ラウンドで70%の勝率を記録するも、第2~5ラウンドで急落(15%)と驚くべき逆転。分析によると、Gemini 3 Proは初回に短くシンプルな戦略で成功したが、その後のラウンドで過去の結果を過剰に取り入れ、コンテキストの混乱(context rot)を引き起こした可能性がある。 また、モデルの学習能力を評価する観点から、各モデルのスクリプトの質はラウンドごとに向上傾向を示した。特にClaude Opus 4.5は第1ラウンドから第5ラウンドまで20%の勝率向上を達成。GPT 5.2も7%の改善。一方、モデルのコスト効率ではGPT 5.2が最も優れており、1ドルあたりのELO獲得量がClaude Opus 4.5の1.7倍に達する。 LLM Skirmishは、AIの「コード生成力」と「戦略的学習能力」を実際のゲーム環境で検証する画期的な試みであり、今後のAI開発の指標としての価値が期待される。

関連リンク

Hacker NewsHacker News
LLM対決の真価を問う:コードで戦うリアルタイム戦略大会「LLM Skirmish」で明らかになったトップモデルの実力と課題 | 人気の記事 | HyperAI超神経