HyperAIHyperAI
vor 2 Monaten

Cache me if you Can: Ein Online kostenbewusster Lehrer-Schüler-Rahmen zur Reduzierung der Aufrufe großer Sprachmodelle

Ilias Stogiannidis; Stavros Vassos; Prodromos Malakasiotis; Ion Androutsopoulos
Cache me if you Can: Ein Online kostenbewusster Lehrer-Schüler-Rahmen zur Reduzierung der Aufrufe großer Sprachmodelle
Abstract

Das Prompten von großen Sprachmodellen (LLMs) erzielt beeindruckende Ergebnisse in Null-Shot- und Few-Shot-Szenarien. Daher wenden sich zunehmend kleine und mittlere Unternehmen (SMEs), die die Kosten für die Erstellung großer aufgabenbezogener Trainingsdatensätze oder auch die Kosten für das Vortrainieren eigener LLMs nicht tragen können, an Drittanbieterdienste, die es ihnen ermöglichen, LLMs zu prompten. Derzeit erfordern jedoch solche Dienste eine Gebühr pro Aufruf, was zu einem erheblichen betrieblichen Aufwand (OpEx) wird. Zudem sind Kundenanfragen im Laufe der Zeit oft sehr ähnlich, sodass SMEs LLMs mit sehr ähnlichen Instanzen versorgen. Wir schlagen einen Rahmen vor, der es ermöglicht, die Anzahl der Aufrufe an LLMs durch Zwischenspeichern früherer LLM-Antworten und deren Nutzung zur Schulung eines kostengünstigen lokalen Modells auf der Seite des SMEs zu reduzieren. Der Rahmen umfasst Kriterien zur Entscheidung, wann dem lokalen Modell vertraut werden kann oder wann ein Aufruf an das LLM erforderlich ist, sowie eine Methodik zur Anpassung dieser Kriterien und zur Messung des Spannungsfeldes zwischen Leistung und Kosten. Zu experimentellen Zwecken instanziieren wir unseren Rahmen mit zwei LLMs, GPT-3.5 oder GPT-4, und zwei kostengünstigen Schülern, einem k-NN-Klassifizierer oder einem Mehrschichtperzeptron (Multi-Layer Perceptron), unter Verwendung von zwei gängigen Geschäftsaufgaben: Absichtserkennung (Intent Recognition) und Stimmungsanalyse (Sentiment Analysis). Die experimentellen Ergebnisse deuten darauf hin, dass erhebliche Einsparungen im betrieblichen Aufwand (OpEx) bei nur leicht geringerer Leistung erreicht werden können.