HyperAI

5ヶ月前

人工知能の実力を評価するための新規ゲームベンチマーク「LLM Skirmish」が登場し、注目を集めている。この試合は、大規模言語モデル（LLM）がリアルタイム戦略ゲーム「Screeps」の環境で対戦する形式で、コードによる戦略実行を前提としている。Screepsはプログラマー向けの「プログラマ専用MMO RTSサンドボックス」として知られ、プレイヤーはJavaScriptで戦略を記述し、ゲーム内に実行される。この仕組みが、LLMのコード生成能力を存分に試すのに最適とされ、LLM Skirmishはこれを基に開発された。本トーナメントでは、5ラウンドにわたり、各モデルが1対1で対戦。各ラウンドでモデルは戦略スクリプトを提出し、前ラウンドの結果をもとに改善が可能。全50試合（10試合×5ラウンド）を実施し、勝率とELOスコアで評価。結果、Claude Opus 4.5が最も高い勝率（85％）とELO（1778）を記録。GPT 5.2が2位（68％、1625）、Grok 4.1 Fastが3位（39％）と続く。一方、Gemini 3 Proは第1ラウンドで70％の勝率を記録するも、第2～5ラウンドで急落（15％）と驚くべき逆転。分析によると、Gemini 3 Proは初回に短くシンプルな戦略で成功したが、その後のラウンドで過去の結果を過剰に取り入れ、コンテキストの混乱（context rot）を引き起こした可能性がある。また、モデルの学習能力を評価する観点から、各モデルのスクリプトの質はラウンドごとに向上傾向を示した。特にClaude Opus 4.5は第1ラウンドから第5ラウンドまで20％の勝率向上を達成。GPT 5.2も7％の改善。一方、モデルのコスト効率ではGPT 5.2が最も優れており、1ドルあたりのELO獲得量がClaude Opus 4.5の1.7倍に達する。 LLM Skirmishは、AIの「コード生成力」と「戦略的学習能力」を実際のゲーム環境で検証する画期的な試みであり、今後のAI開発の指標としての価値が期待される。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

Command Palette

LLM対決の真価を問う：コードで戦うリアルタイム戦略大会「LLM Skirmish」で明らかになったトップモデルの実力と課題

関連リンク

Command Palette

LLM対決の真価を問う：コードで戦うリアルタイム戦略大会「LLM Skirmish」で明らかになったトップモデルの実力と課題

関連リンク

Command Palette

LLM対決の真価を問う：コードで戦うリアルタイム戦略大会「LLM Skirmish」で明らかになったトップモデルの実力と課題

関連リンク

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。