HyperAIHyperAI

Command Palette

Search for a command to run...

Cache me if you Can : un cadre en ligne sensible au coût pour réduire les appels aux grands modèles de langage

Ilias Stogiannidis Stavros Vassos Prodromos Malakasiotis Ion Androutsopoulos

Résumé

L'utilisation de modèles de langage à grande échelle (LLMs) dans des configurations à zéro ou peu d'exemples donne des résultats impressionnants. Par conséquent, les petites et moyennes entreprises (PMEs) qui ne peuvent pas se permettre le coût de la création de grands ensembles de données d'entraînement spécifiques aux tâches, ni le coût de l'entraînement préalable de leurs propres LLMs, se tournent de plus en plus vers des services tiers leur permettant d'interroger ces modèles. Cependant, ces services nécessitent actuellement un paiement par appel, ce qui devient une dépense opérationnelle (OpEx) significative. De plus, les entrées des clients sont souvent très similaires au fil du temps, ce qui fait que les PMEs finissent par interroger les LLMs avec des instances très semblables. Nous proposons un cadre permettant de réduire les appels aux LLMs en mettant en cache les réponses précédentes des LLMs et en utilisant ces réponses pour entraîner un modèle local peu coûteux du côté des PMEs. Ce cadre inclut des critères pour décider quand faire confiance au modèle local ou quand interroger le LLM, ainsi qu'une méthodologie pour ajuster ces critères et mesurer le compromis entre performance et coût. À des fins expérimentales, nous avons instancié notre cadre avec deux LLMs, GPT-3.5 ou GPT-4, et deux modèles peu coûteux, un classifieur k-NN ou un perceptron multicouche (Multi-Layer Perceptron), sur deux tâches commerciales courantes : la reconnaissance d'intention et l'analyse de sentiment. Les résultats expérimentaux indiquent qu'il est possible d'obtenir des économies importantes en termes d'OpEx tout en sacrifiant légèrement la performance.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Cache me if you Can : un cadre en ligne sensible au coût pour réduire les appels aux grands modèles de langage | Articles | HyperAI