大規模言語モデルエージェントを検索とコードツールを使用して小型モデルに蒸留する

大規模言語モデル(LLMs)は複雑な推論タスクに優れていますが、計算コストが高いという問題があり、実用的な展開が制限されています。この課題に対処するため、最近の研究では教師のLLMから思考チェーン(CoT)トレースを用いて推論能力を小型言語モデル(sLMs)に蒸留する手法に焦点を当てています。しかし、このアプローチは稀な事実知識や精密な計算が必要なシナリオで苦戦し、sLMsはしばしば能力の制限により虚偽の情報を生成します。本研究では、Agent Distillationと呼ばれるフレームワークを提案します。これは、検索ツールやコードツールを持つ小型エージェントに、推論能力だけでなく完全なタスク解決行動も転送することを目指しています。Agent Distillationを改善するために、以下の2つの補完的な軸に沿って取り組んでいます:(1) 教師が生成した軌跡の品質を向上させるために「最初の思考プレフィックス」というプロンプト手法を導入し、(2) 小型エージェントのテスト時の堅牢性を向上させるために自己一貫性のあるアクション生成手法を提案しています。我々は8つの推論タスクについて評価を行い、これらのタスクは事実的および数学的領域にまたがり、ドメイン内とドメイン外の一般化も含んでいます。結果は、0.5B、1.5B、3Bパラメータを持つ小型言語モデル(sLMs)が、CoT蒸留を使用して微調整された次の階層の大規模モデル(1.5B、3B、7Bパラメータ)と競合できる性能を達成できることを示しています。これにより、Agent Distillationが実用的でツールを使用する小型エージェントの構築に大きな可能性を持っていることが明らかになりました。当該コードはhttps://github.com/Nardien/agent-distillation で公開されています。