17日前

ToolLLM:16000以上の実世界APIを大規模言語モデルが習得できるように支援する

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun
ToolLLM:16000以上の実世界APIを大規模言語モデルが習得できるように支援する
要約

オープンソースの大規模言語モデル(LLM)— 例えば LLaMA — の進展にもかかわらず、外部ツール(APIなど)を活用して人間の指示を実行する「ツール利用能力」において、依然として著しい制限が存在する。その理由は、現在のインストラクションチューニングが基本的な言語タスクに主眼を置いており、ツール利用領域を十分に考慮していないためである。これに対し、最先端の閉鎖型LLM(例:ChatGPT)は、優れたツール利用能力を備えている。このギャップを埋めるために、データ構築、モデル訓練、評価を統合した汎用的なツール利用フレームワーク「ToolLLM」を提案する。まず、ツール利用を対象としたインストラクションチューニングデータセット「ToolBench」を紹介する。このデータセットは、ChatGPTを用いて自動的に構築されたもので、以下の3段階に分けて構成される:(i)API収集:RapidAPI Hubから49のカテゴリにまたがる実世界のRESTful APIを16,464件収集;(ii)インストラクション生成:ChatGPTに、これらのAPIを含む多様なインストラクションを生成させる。これには単一ツールおよび複数ツールを用いたシナリオが含まれる;(iii)解決経路のアノテーション:各インストラクションに対して、有効な解決経路(APIコールの連鎖)をChatGPTで探索し、アノテートする。さらに、LLMの推論能力を強化するため、新たな深さ優先探索に基づく決定木アルゴリズムを開発した。このアルゴリズムにより、LLMは複数の推論経路を評価し、探索空間を拡張することが可能となる。また、LLMのツール利用能力を評価するため、自動評価器「ToolEval」も開発した。ToolBenchを基に、LLaMAを微調整して「ToolLLaMA」というLLMを構築し、各インストラクションに対して適切なAPIを推薦するニューラルAPIリトリーバーを搭載した。実験の結果、ToolLLaMAは複雑なインストラクションの実行能力と、未観測のAPIへの一般化能力に優れており、ChatGPTと同等の性能を示した。さらに、分布外のツール利用データセット「APIBench」においても、強力なゼロショット一般化能力を示した。

ToolLLM:16000以上の実世界APIを大規模言語モデルが習得できるように支援する | 最新論文 | HyperAI超神経