2 个月前

缓存我如能：一种在线成本感知的教师-学生框架以减少对大型语言模型的调用次数

Ilias Stogiannidis; Stavros Vassos; Prodromos Malakasiotis; Ion Androutsopoulos

摘要

大型语言模型（LLMs）在零样本和少样本设置中表现出色。因此，无法承担创建大规模特定任务训练数据集成本的小型和中型企业（SMEs）也越来越多地转向第三方服务，这些服务允许它们提示大型语言模型。然而，目前这些服务每次调用都需要付费，这成为了一项重要的运营支出（OpEx）。此外，客户输入随着时间的推移往往非常相似，导致中小企业频繁地向大型语言模型发送非常相似的请求。我们提出了一种框架，通过缓存之前的大型语言模型响应并利用这些响应训练本地低成本模型来减少对大型语言模型的调用次数。该框架包括决定何时信任本地模型或调用大型语言模型的标准，以及调整这些标准并衡量性能与成本之间权衡的方法论。为了实验目的，我们使用两个常见的商业任务——意图识别和情感分析——实例化了我们的框架，并选择了两种大型语言模型（GPT-3.5 或 GPT-4）和两种低成本的学生模型（k-近邻分类器或多层感知机）。实验结果表明，通过这种方法可以在性能略有下降的情况下显著降低运营支出。