ToolLLM:16000以上の実世界APIを大規模言語モデルが習得できるように支援する

オープンソースの大規模言語モデル(LLM)— 例えば LLaMA — の進展にもかかわらず、外部ツール(APIなど)を活用して人間の指示を実行する「ツール利用能力」において、依然として著しい制限が存在する。その理由は、現在のインストラクションチューニングが基本的な言語タスクに主眼を置いており、ツール利用領域を十分に考慮していないためである。これに対し、最先端の閉鎖型LLM(例:ChatGPT)は、優れたツール利用能力を備えている。このギャップを埋めるために、データ構築、モデル訓練、評価を統合した汎用的なツール利用フレームワーク「ToolLLM」を提案する。まず、ツール利用を対象としたインストラクションチューニングデータセット「ToolBench」を紹介する。このデータセットは、ChatGPTを用いて自動的に構築されたもので、以下の3段階に分けて構成される:(i)API収集:RapidAPI Hubから49のカテゴリにまたがる実世界のRESTful APIを16,464件収集;(ii)インストラクション生成:ChatGPTに、これらのAPIを含む多様なインストラクションを生成させる。これには単一ツールおよび複数ツールを用いたシナリオが含まれる;(iii)解決経路のアノテーション:各インストラクションに対して、有効な解決経路(APIコールの連鎖)をChatGPTで探索し、アノテートする。さらに、LLMの推論能力を強化するため、新たな深さ優先探索に基づく決定木アルゴリズムを開発した。このアルゴリズムにより、LLMは複数の推論経路を評価し、探索空間を拡張することが可能となる。また、LLMのツール利用能力を評価するため、自動評価器「ToolEval」も開発した。ToolBenchを基に、LLaMAを微調整して「ToolLLaMA」というLLMを構築し、各インストラクションに対して適切なAPIを推薦するニューラルAPIリトリーバーを搭載した。実験の結果、ToolLLaMAは複雑なインストラクションの実行能力と、未観測のAPIへの一般化能力に優れており、ChatGPTと同等の性能を示した。さらに、分布外のツール利用データセット「APIBench」においても、強力なゼロショット一般化能力を示した。