概要

将来予測は、高度な分析的思考力、情報収集能力、文脈理解力、不確実性下での意思決定能力を要する複雑なタスクであり、LLMエージェントにとって大きな課題である。エージェントは、膨大で動的な情報の収集と解釈に加え、多様なデータソースの統合、不確実性の評価、新たなトレンドに応じた予測の適応を行う必要があり、政治、経済、金融などの分野における専門家が行うように振る舞わなければならない。しかし、その重要性にもかかわらず、将来予測におけるエージェントの評価を目的とした大規模なベンチマークは存在せず、主にリアルタイムの更新処理や最新かつ正確な回答の取得が困難であるためである。こうした課題に対応するため、本研究では将来予測タスクを実行するLLMエージェントを対象とした動的かつライブな評価ベンチマーク「FutureX」を提案する。FutureXは、将来予測における最大規模かつ最も多様性に富んだライブベンチマークであり、リアルタイムでの日次更新をサポートし、自動化された質問収集および回答収集パイプラインによりデータの汚染を排除している。本研究では、推論能力、検索機能、外部ツール（オープンソースのDeep Research AgentやクローズドソースのDeep Researchモデルなど）との統合を備えた25種類のLLM/エージェントモデルを評価し、エージェントの動的環境下での適応的推論能力と性能を包括的に検証した。さらに、将来志向のタスクにおけるエージェントの失敗モードや性能上の落とし穴について、フェイクウェブページへの脆弱性や時系列的有効性の限界といった観点から詳細な分析を提供している。本研究の目的は、動的かつ汚染のない評価基準を確立し、複雑な推論と予測的思考においてプロフェッショナルな人間アナリストと同等の水準を達成できるLLMエージェントの開発を促進することにある。

ソースPDF