概要

現実世界のタスクは、異なる粒度の意思決定を必要とするが、人間は計画を高次元の行動の一種として本質的に捉える統一された認知表現を活用することで、このような多様な粒度に対応する能力に優れている。一方、現在の大規模言語モデル（LLM）ベースのエージェントは、意思決定の粒度に応じて流動的に振る舞うという重要な能力を欠いている。この制限は、高次元の計画と低次元の行動の間に厳格な分離を強いる従来の枠組みに起因しており、動的な適応性を損ない、一般化能力を制限している。本研究では、単一のコード表現内に計画と行動を統合する新たな枠組み「ReCode（Recursive Code Generation：再帰的コード生成）」を提案する。この表現では、高次元の計画を抽象的なプレースホルダ関数として扱い、エージェントがそれらを再帰的に細分化することで、最終的にプリミティブな行動にまで到達する。この再帰的アプローチにより、計画と行動の厳格な境界が解消され、エージェントは意思決定の粒度を動的に制御可能となる。さらに、再帰的構造は自然に多様な粒度を持つ豊富な訓練データを生成するため、モデルが階層的な意思決定プロセスを学習できる。広範な実験により、ReCodeは高度なベースラインを大きく上回る推論性能を示し、訓練においても顕著なデータ効率性を発揮することが確認された。これにより、再帰的コード生成によって計画と行動を統合するアプローチが、普遍的な粒度制御を実現する強力かつ効果的な手法であるという本研究の核心的洞察が裏付けられた。実装コードは以下のURLで公開されている：https://github.com/FoundationAgents/ReCode。

ソースPDF