AI 評価が新たなコンピュートのボトルネックに
AI の評価コストが計算リソースの新たなボトルネックとなり、どの組織が評価を行えるかを決定する壁となっています。最新の Holistic Agent Leaderboard(HAL)では、9 つのモデルと 9 つのベンチマークにおける約 2 万回の実行に約 4 万ドルを要しました。GAIA のような単一のフロントエンドモデルの実行にはキャッシュなしで 3,000 ドル近くかかり、エージェント構成のテストでもコストに最大 33 倍の差が出る場合がありました。 従来の静的な LLM ベンチマークでは、モデル選定や圧縮技術によりコストを 100 倍以上削減可能でしたが、自律型エージェントや科学機械学習における評価は異なります。エージェントは実行スキャフォールドやトークン予算の組み合わせに強く依存するため、単一の実行でもコスト変動が巨大になります。また、正確性の向上には必ずしもコスト増が伴わず、小さな精度向上のためにコストが 9 倍かかるケースも報告されています。さらに、訓練を伴う科学 ML ベンチマーク「The Well」では、単一のアーキテクチャ評価に約 960 H100 時間、フルスウィープには 3,840 時間を要し、評価コストが訓練コストを上回る現象が起きています。 評価の信頼性を確保するために複数回実行を行うと、コストはさらに数倍に跳ね上がります。HAL のような統計的に有意な評価では、1 回の評価が 4 万ドルであれば、8 回の再実行で総額 32 万ドルに達します。この高コストにより、アカデミアや独立系機関、ジャーナリストが最先端モデルを独立して評価することが事実上不可能になり、評価の権限が特定の巨大企業や資金力のあるラボに集中する恐れがあります。また、コスト情報を隠したリーダーボードは、無駄な計算資源の使用を助長し、実際の性能比較を歪めています。 この課題への解決策として、既存の評価結果を標準化された形式で共有し、同一の実行を繰り返すのを防ぐ「データ共有」の重要性が指摘されています。評価結果の詳細なログやスキャフォールド情報を公開することで、コミュニティ全体の総コストを削減し、リソースを新たな実験に振り向けられるようになります。現在、評価コストは機能開発のボトルネックとなるだけでなく、誰が AI 技術を監視・評価できるかというガバナンスの問題に直結しています。
