Agent = Model + Harness
「エージェント=モデル+ハッチス」という新基準で、AI エージェントの性能が基礎モデルだけでなく、それを取り巻くシステム層であるハッチスの質に強く依存することが実証されました。ハッチスとは、コンテキスト管理、ツール連携、状態追跡、権限制御、回復機能などを担うシステム層を指します。ベンチマーク「Harness-Bench」は、同じモデルとタスク環境でも、ハッチスを変えるだけでスコアが最大 23.8 ポイント変動することを示しました。例えば、超軽量な「NanoBot」は 76.2 のスコアを獲得しましたが、同様の環境にある「OpenClaw」は 52.4 に留まりました。 分析結果によると、エージェントの失敗原因の多くは推論能力の欠如ではなく、実行の齟齬です。失敗したケースで最も多かったのは契約やフォーマット違反で全体の 36.4%を占め、次いでエラー発生時の回復失敗 24.6%、主張の根拠不足 14.6%などが続きました。これはモデルが論理的に正解を導いていても、それを環境が検知可能な形で書き出せず、結果として「知的な問題」ではなく「帳簿管理の問題」に帰着することを意味します。この概念を「実行整合性」と呼び、ハッチスが意図と検証可能な成果のつながりをいかに維持できるかが鍵となります。 興味深いことに、ハッチスの重要性はモデルの能力に反比例します。能力が低いモデルではハッチスの変更が成績に劇的な影響を与えますが、強力なモデルは異なるハッチスへの耐性が高く、ハッチスへの依存度が低下します。つまり、ハッチスはモデルが強化されるにつれて不要な足かせから、重要なインフラへと役割を変化させます。 効率性に関する知見としては、複雑な機能よりもシンプルで堅牢な構造が優位であることが分かりました。高性能な研究用スタック「Hermes」が低コストな「NanoBot」を下回った理由として、余計な機構が失敗を招く可能性があります。最高スコアを獲得したのは、特定領域に特化した「Codex」であり、汎用性の高さよりも専門性が勝るケースも示唆されます。本調査は、開発者が将来のモデル進化を見据えて、いかに永続的な価値を持つハッチスを設計するかが問われていることを示しています。
