대규모 언어 모델을 위한 완전성 지향형 도구 검색 방향

최근 대규모 언어 모델(Large Language Models, LLMs)에 외부 도구를 통합하는 것은 사전 훈련 데이터에 내재된 한계를 완화하는 효과적인 전략으로 주목받고 있다. 그러나 실세계 시스템에서는 다양한 도구들이 복합적으로 사용되며, 모델의 입력 길이 제한 및 지연 시간 제약으로 인해 모든 도구를 LLM에 동시에 입력하는 것은 현실적으로 불가능하다. 따라서 도구 보강형 LLM의 잠재력을 극대화하기 위해서는 효과적인 도구 검색 시스템을 개발하는 것이 필수적이다. 기존의 도구 검색 방법들은 주로 사용자 질의와 도구 설명 간의 의미적 유사성에 초점을 맞추고 있으나, 이로 인해 유사하거나 중복된 도구들이 자주 검색되며, LLM이 직면하는 다면적인 문제를 해결하기 위해 필요한 다양성 있는 도구 집합을 제공하지 못하는 한계가 있다. 본 논문에서는 사용자 질의와 도구 설명 간의 의미적 유사성뿐만 아니라 도구 간의 협업 정보까지 고려하는 모델에 의존하지 않는 공동 학습 기반 도구 검색 모델인 COLT( COllaborative Learning-based Tool Retrieval)을 제안한다. 구체적으로, 먼저 의미 학습 단계에서 PLM 기반의 검색 모델을 미세 조정하여 질의와 도구 간의 의미적 관계를 효과적으로 포착한다. 이후 협업 학습 단계에서 질의, 시나리오, 도구 간의 삼중 이분 그래프를 구축하고, 이중 시각의 그래프 공동 학습 프레임워크를 도입하여 도구 간 복잡한 협업 관계를 정교하게 모델링한다. 공개 벤치마크 및 새로 제안한 ToolLens 데이터셋에서 수행된 광범위한 실험 결과, COLT은 우수한 성능을 보였다. 특히, 본 연구에서 제안한 모델 프레임워크를 적용한 BERT-mini(11M)의 성능은 파라미터 수가 30배 많은 BERT-large(340M)를 초월하는 결과를 보였다. 더불어, 향후 도구 검색 연구를 촉진하기 위해 ToolLens 데이터셋을 공개할 예정이다.