Nexus:複雑なタスク自動化向けの軽量且つスケーラブルなマルチエージェントフレームワーク

近年の大規模言語モデル(LLM)の進展により、マルチエージェントシステム(MAS)の能力は著しく進化し、単なるタスクの自動化にとどまらず、人間に近い推論能力を活用できるシステムの実現が可能になった。この実現に向け、LLMを基盤とするMASは以下の二つの重要な原則に基づいて構築される必要がある:(i) 特定のタスクあるいは関連するタスク群に対して、LLMの潜在能力を最大限に活用できる堅牢なアーキテクチャ、および (ii) LLMにタスク実行および情報管理のための必要な能力を効果的に付与するための手法。当然のことながら、事前に設計されたアーキテクチャは、特定のMASのスケーラビリティおよびドメイン適応性を制限する可能性がある。これらの課題に対応するため、本論文では、LLMを基盤とするMASを容易に構築・管理できる軽量なPythonフレームワーク「Nexus」を提案する。Nexusは以下の革新を導入している:(i) 柔軟なマルチスーパーバイザー階層、(ii) 簡素化されたワークフロー設計、および (iii) インストールの容易さとオープンソースの柔軟性。Nexusはpipを用いたインストールが可能であり、許容的なオープンソースライセンスのもとで配布されており、ユーザーが自由にカスタマイズおよび拡張できる。実験結果から、Nexusを用いて構築されたアーキテクチャは、多様な分野において最先端の性能を示した。コーディングタスクでは、HumanEvalで99%のパス率、VerilogEval-Humanでは完璧な100%の正解率を達成し、o3-miniやDeepSeek-R1といった最先端の推論言語モデルを上回った。また、複雑な推論および数学的問題解決においても高い実行力を見せ、MATHデータセットからランダムに選択されたすべての問題に対して正解を導き出した。マルチ目的最適化の分野では、VTRベンチマークスイートに含まれる設計に対して、困難なタイミングクロージャー課題を成功裏に解決し、平均して約30%の電力消費削減を達成した。