AIコンサルティングに向けた進化:MercorのベンチマークでAIエージェントの実力が浮き彫りに
MercorのCEO、ブレナン・フーディ氏は、現在のAIエージェントは人間のコンサルタントを完全に置き換えるには至っていないが、今後数年以内にその可能性が高まると指摘している。同社が実施した調査では、OpenAIやGoogle、Anthropicなど最新のAIモデルが、マネジメントコンサルティング、銀行、法務などの実務課題を扱う際、初回試行で25%未満の成功率にとどまり、8回の試行でも40%にとどまった。特に、複数のツールを使い分ける計画性や、情報の所在を把握する能力に欠けるため、長時間・多段階のタスクでは失敗が相次いだ。 コンサルティング業界の実務を模倣した「APEX-Agentsベンチマーク」は、マッキンゼー、BCG、デロイト、アーンスト・アンド・ヤングなどの専門家によるフィードバックを基に設計された。フーディ氏は、GPT-5.2が初回で約23%、AnthropicのOpus 4.6が33%の成功率を記録したと報告。GPT-3と比べて飛躍的な進歩を示しており、年内には50%の達成が見込まれると予測。しかし、AIは研究やデータ分析では優れているものの、複数ファイルの連携や段階的な戦略立案では人間の判断力に大きく劣る。 フーディ氏は、AIエージェントは「50%の合格率を持つインターン」に近いと評価。専門的な修正や「クライアント向け完成形」といったニュアンスの理解が難しいと指摘。前KPMGコンサルタントのフランク・ジョーンズ氏も、「AIは一見近いが、人間の細かな期待には応えられない」と語る。 一方で、AIの進化は著しく、Mercorは2025年には売上を4,658%増加させ、100億ドルの評価額を達成。同社はOpenAIやAnthropic、Metaなど大手企業のAI訓練支援を手がけ、世界3万人以上の契約者を擁する。フーディ氏は、今後は「コンサル会社そのもの」を評価する新たなベンチマークを展開し、「2年以内に、最高のコンサルファームと同等のチャットボットが登場する」と警鐘を鳴らした。
