2달 전
Cache me if you Can: 온라인 비용 인식型 교사-학생 프레임워크를 이용한 대형 언어 모델 호출 감소
Ilias Stogiannidis; Stavros Vassos; Prodromos Malakasiotis; Ion Androutsopoulos

초록
대형 언어 모델(LLM)은 제로샷 및 소수 샷 설정에서 뛰어난 성능을 보입니다. 따라서 대규모 작업별 훈련 데이터셋을 생성하거나 자체 LLM의 사전 훈련 비용을 감당할 수 없는 중소기업(SME)들은 점점 더 이러한 LLM들을 프롬프팅할 수 있는 제三方 서비스에 의존하고 있습니다. 그러나 이러한 서비스는 호출당 요금이 필요하여 운영비(OpEx)가 크게 증가합니다. 또한, 고객 입력은 시간이 지남에 따라 매우 유사한 경우가 많아, SME들은 매우 유사한 인스턴스로 LLM을 프롬프팅하는 경우가 많습니다. 우리는 이 문제를 해결하기 위해 이전 LLM 응답을 캐싱하고 이를 사용하여 SME 측에서 저렴한 로컬 모델을 훈련시키는 프레임워크를 제안합니다. 이 프레임워크는 로컬 모델을 신뢰할 때와 LLM에 호출해야 할 때를 결정하는 기준과, 기준 조정 및 성능과 비용 사이의 균형을 측정하는 방법론을 포함합니다. 실험 목적으로, 우리의 프레임워크는 두 가지 LLM(GPT-3.5 또는 GPT-4)와 두 가지 저렴한 학생 모델(k-NN 분류기 또는 다중 계층 퍼셉트론)을 사용하여 두 가지 일반적인 비즈니스 작업(의도 인식 및 감성 분석)으로 구현되었습니다. 실험 결과, 성능이 약간 낮아지는 대신 상당한 운영비 절감 효과를 얻을 수 있음을 나타냈습니다.注: "제三方"在韩文中通常写作"제3자",但在这里为了保持与原文的一致性,保留了"제방"的形式。如果需要更符合韩语习惯的表达,可以修改为"제3자 서비스"。