Command Palette
Search for a command to run...
Kangning Zhang Wenxiang Jiao Kounianhua Du Yuan Lu Weiwen Liu Weinan Zhang Lei Zhang Yong Yu

要約
外部ツールを大規模言語モデル(LLM)に統合することで、複雑で多段階にわたるタスクの実行が可能になる。しかし、データ生成とモデル学習が独立して非対話的に行われる静的合成データパイプラインの存在により、ツール学習は制限されている。このアプローチは、モデルの特定の弱みに自ら適応して注目することができず、ノイズを含むラベルが継続的に残存するため、学習効率が低下する。本研究では、データ合成とモデル学習を密接に統合することでこの閉ループを実現する、完全自動化かつモデルに意識的なデータ進化フレームワーク「LoopTool」を提案する。LoopToolは、以下の三つの相互作用的なモジュールを通じて、データとモデルを反復的に最適化する。(1) グリーディ能力探査(GCP):モデルが習得した能力と失敗した能力を診断する。(2) 判定モデル誘導型ラベル検証(JGLV):オープンソースの評価モデルを用いてアノテーションエラーを検出し、逐次的にデータセットを精製する。(3) エラー駆動型データ拡張(EDDE):識別された失敗事例に基づき、新たな難易度の高いサンプルを生成する。 この閉ループプロセスは、コスト効率が高くオープンソースのエコシステム内で動作し、高価な閉鎖型APIに依存することを排除する。実験の結果、LoopToolで学習された8B規模のモデルは、32B規模のデータ生成器を上回り、同規模のモデルとしてBFCL-v3およびACEBenchベンチマークにおいて新たな最良成績を達成した。本研究は、閉ループ型で自己改善可能なデータパイプラインが、LLMのツール利用能力を著しく向上させ得ることを示している。