Cache me if you Can : un cadre en ligne sensible au coût pour réduire les appels aux grands modèles de langage

L'utilisation de modèles de langage à grande échelle (LLMs) dans des configurations à zéro ou peu d'exemples donne des résultats impressionnants. Par conséquent, les petites et moyennes entreprises (PMEs) qui ne peuvent pas se permettre le coût de la création de grands ensembles de données d'entraînement spécifiques aux tâches, ni le coût de l'entraînement préalable de leurs propres LLMs, se tournent de plus en plus vers des services tiers leur permettant d'interroger ces modèles. Cependant, ces services nécessitent actuellement un paiement par appel, ce qui devient une dépense opérationnelle (OpEx) significative. De plus, les entrées des clients sont souvent très similaires au fil du temps, ce qui fait que les PMEs finissent par interroger les LLMs avec des instances très semblables. Nous proposons un cadre permettant de réduire les appels aux LLMs en mettant en cache les réponses précédentes des LLMs et en utilisant ces réponses pour entraîner un modèle local peu coûteux du côté des PMEs. Ce cadre inclut des critères pour décider quand faire confiance au modèle local ou quand interroger le LLM, ainsi qu'une méthodologie pour ajuster ces critères et mesurer le compromis entre performance et coût. À des fins expérimentales, nous avons instancié notre cadre avec deux LLMs, GPT-3.5 ou GPT-4, et deux modèles peu coûteux, un classifieur k-NN ou un perceptron multicouche (Multi-Layer Perceptron), sur deux tâches commerciales courantes : la reconnaissance d'intention et l'analyse de sentiment. Les résultats expérimentaux indiquent qu'il est possible d'obtenir des économies importantes en termes d'OpEx tout en sacrifiant légèrement la performance.