「TheAgentCompany: 実世界の業務タスクを自動化する大規模言語モデルエージェントのベンチマーク」
TheAgentCompany: 大規模言語モデルのリアルワーク環境での評価 日々の生活や仕事において、コンピューターとの連携は不可欠となっています。大規模言語モデル(LLM)の急速な進化により、環境との相互作用を行い影響を与える AI アジェントが著しく発展しています。しかし、これら AI アジェントが仕事の負担を軽減したり、独立して作業を遂行できるのかについて、実際の評価が必要です。この答は、AI を業務フローや労働市場に組み込むことを検討している企業や経済政策担当者にとって極めて重要です。 そこで、本研究では TheAgentCompany という新たな評価ツールを紹介します。このツールは、AI アジェントがデジタル労働者のようにウェブを閲覧、コードを書く、プログラムを実行、コミュニケーションを取ることによって現実世界の専門的なタスクを遂行する能力を評価するために設計されています。研究チームは、小規模のソフトウェア会社を模した独自の環境を構築し、その環境に適したさまざまなタスクを設定しました。この評価では、閉じた API と開かれた重みの言語モデルを駆動する基本的なアジェントをテストし、最も競争力のあるアジェントを使用すると、24% のタスクが独立して完了することが確認されました。 これらの結果は、言語モデルアジェントを利用したタスク自動化が複雑な状況にあることを示唆しています。具体的には、簡単なタスクの多くは自動化できる一方で、より複雑で長期的なタスクは依然として現在のシステムの範囲を超えています。このツールを通じて得られる洞察は、AI の実用的な活用に向けた重要な第一歩となるでしょう。
