17일 전

ToolLLM: 대규모 언어 모델이 16,000개 이상의 실제 세계 API를 익히는 것을 지원하기 위한 접근

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun
ToolLLM: 대규모 언어 모델이 16,000개 이상의 실제 세계 API를 익히는 것을 지원하기 위한 접근
초록

오픈소스 대규모 언어모델(LLM), 예를 들어 LLaMA와 같은 모델들의 발전에도 불구하고, 외부 도구(API 등)를 활용하여 사용자 지시를 수행하는 도구 사용 능력 측면에서는 여전히 큰 제한을 겪고 있다. 그 이유는 현재의 지시 조정(instruction tuning) 기법이 기본 언어 작업에 주로 초점을 맞추고 있으며, 도구 사용 영역은 무시하고 있기 때문이다. 이는 최신 폐쇄소스 LLM, 예를 들어 ChatGPT와 같은 모델들이 보여주는 뛰어난 도구 사용 능력과는 대조된다. 이러한 격차를 메우기 위해, 데이터 구성, 모델 훈련, 평가를 아우르는 종합적인 도구 사용 프레임워크인 ToolLLM을 제안한다. 먼저, 도구 사용을 위한 지시 조정 데이터셋인 ToolBench를 소개한다. 이 데이터셋은 ChatGPT를 자동으로 활용해 구축되었다. 구체적으로, 이 과정은 세 단계로 나뉜다: (i) API 수집: RapidAPI Hub에서 49개 카테고리에 걸쳐 16,464개의 실제 RESTful API를 수집하였다. (ii) 지시 생성: ChatGPT를 활용해 이러한 API를 포함하는 다양한 지시를 생성하였으며, 단일 도구 및 다중 도구 시나리오 모두를 커버하였다. (iii) 해결 경로 주석: 각 지시에 대해 유효한 해결 경로(도구 호출 체인)를 찾기 위해 ChatGPT를 사용하여 주석을 생성하였다. LLM의 추론 능력을 강화하기 위해, 새로운 깊이 우선 탐색 기반의 결정 트리 알고리즘을 개발하였다. 이 알고리즘은 LLM이 여러 추론 경로를 평가하고 탐색 공간을 확장할 수 있도록 한다. 또한, LLM의 도구 사용 능력을 평가하기 위해 자동 평가기 ToolEval을 개발하였다. ToolBench 기반으로 LLaMA를 미세 조정하여 LLM ToolLLaMA를 얻었으며, 각 지시에 적절한 API를 추천할 수 있도록 신경망 기반 API 검색기(neural API retriever)를 도입하였다. 실험 결과, ToolLLaMA는 복잡한 지시를 실행하고 미지의 API에 일반화하는 데 뛰어난 능력을 보이며, ChatGPT와 비교 가능한 성능을 나타냈다. 또한, 분포 외 도구 사용 데이터셋인 APIBench에서 강력한 제로샷 일반화 능력을 보여, ToolLLaMA의 뛰어난 일반화 성능을 입증하였다.

ToolLLM: 대규모 언어 모델이 16,000개 이상의 실제 세계 API를 익히는 것을 지원하기 위한 접근 | 최신 연구 논문 | HyperAI초신경