4달 전

Routoo: 대형 언어 모델을 효과적으로 라우팅하는 방법 학습

Alireza Mohammadshahi; Arshad Rafiq Shaikh; Majid Yazdani
Routoo: 대형 언어 모델을 효과적으로 라우팅하는 방법 학습
초록

우수한 응답 품질을 가진 대형 언어 모델(LLM) - 특히 더 크거나 소스 코드가 공개되지 않은 모델 -은 종종 높은 추론 비용을 동반하여, 배포 시 비효율적이고 비용이 많이 들 수 있습니다. 한편, 기초적인 LLM을 처음부터 개발하는 것은 점점 더 많은 자원을 필요로 하며, 많은 응용 분야에서 실현 가능성이 낮아지고 있습니다. 이러한 품질과 비용의 균형 문제를 해결하기 위해, 우리는 성능, 비용 및 효율성을 기반으로 특정 프롬프트에 대한 LLM 선택을 최적화하도록 설계된 아키텍처인 'Routoo'를 소개합니다. Routoo는 추론 비용과 품질 간의 트레이드오프를 제어할 수 있으며, 주어진 품질 요구 사항에 따른 추론 비용을 크게 줄일 수 있는 능력을 제공합니다.Routoo는 두 가지 핵심 구성 요소로 이루어져 있습니다: 성능 예측기와 비용 인식 선택기입니다. 성능 예측기는 가벼운 LLM으로, 주어진 프롬프트에 대해 다양한 기본 LLM들의 예상 성능을 실행하지 않고도 추정합니다. 그런 다음 비용 인식 선택기 모듈은 이러한 예측과 비용 및 지연 시간 등의 제약 조건을 바탕으로 가장 적합한 모델을 선택하여 같은 품질에서 추론 비용을 크게 줄입니다.우리는 57개 도메인에서 오픈 소스 모델들을 사용하여 MMLU 벤치마크를 통해 Routoo를 평가했습니다. 결과는 Routoo가 Mixtral 8x7b 모델의 성능과 일치하면서 추론 비용을 3분의 1로 줄였음을 보여줍니다. 또한, 증가된 비용을 허용함으로써 Routoo는 Mixtral보다 5% 이상 높은 정확도를 동일한 비용으로 달성하여 75.9%의 정확도를 기록했습니다. GPT4를 우리의 모델 풀에 통합할 때, Routoo는 GPT4의 성능에 거의 근접하면서 반값의 비용으로 작동하며, 25%의 비용 절감 시 GPT4를 초월하였습니다.이러한 결과들은 Routoo가 품질 저하 없이 추론 비용을 크게 줄일 잠재력을 보여주며, 여러 LLM들의 집합적인 능력을 활용하여 새로운 최고 수준의 결과를 달성할 가능성까지 제시하고 있습니다.